最近搭建GP20台节点环境时,发生初始化总是出现几个节点实例无法启动的问题。折腾两天,才找到问题。
初始化时,设置了最大连接数为100,每台机器运行12个实例,主备就是24个实例,初始化后有一部分实例正常启动,一部分失败。
根据日志找到失败节点目录下的日志,发现失败原因是由于硬件资源问题导致,提示是初始化最大连接数过大。机器的配置都是很高的,会出现这样的问题,很奇怪。
根据连接数的问题,在进一步分析,发现也许和系统参数的共享内存设置有问题,也就是shmmax /shmmni /shmall 这几个参数的设置,机器配置内存是32G,我按照16G来配置:
kernel.shmmax = 17179869184
kernel.shmmni = 4096
kernel.shmall = 4194304
再将初始化最大连接数减小到50个,再做初始化,就正常了。
之后没有再做增加连接数的验证。估计这个问题是和这两个地方有关系。特别是加大每台机器的实例数后,就会出现这个问题。