1、错误日志:
gpstart
.....
20170104:16:35:48:000907 gpstart:gp-segment5:gpadmin-[CRITICAL]:-Failed to start Master instance in admin mode
20170104:16:35:48:000907 gpstart:gp-segment5:gpadmin-[CRITICAL]:-Error occurred: non-zero rc: 1
Command was: 'env GPSESSID=0000000000 GPERA=None $GPHOME/bin/pg_ctl -**D /disk/master/gpseg-1 -l /disk/master/gpseg-1/pg_log/startup.log** -w -t 600 -o " -p 5432 -b 1 -z 0 --silent-mode=true -i -M master -C -1 -x 18 -c gp_role=utility " start'
rc=1, stdout='waiting for server to start...... stopped waiting
', stderr='pg_ctl: PID file "/disk/master/gpseg-1/postmaster.pid" does not exist
pg_ctl: could not start server
Examine the log output.
'
2、排查步骤
1.按照日志信息查询启动日志,日志位置在上面错误信息加错的位置
命令:tail -50f /disk/master/gpseg-1 -l /disk/master/gpseg-1/pg_log/startup.log
关键字:FATAL 或者 error
2.如果启动日志没有错误信息,查询同路径下最新的**.csv**文件,按照此文件中的错误提示信息,进行问题的修改
3、重启后
重启之后,可能存在节点之间不同步,节点状态不是 sync,此时可以执行gprecoverseg命令
执行命令时如果出现下列提示信息
Lockfile /app/gpdata/master/gpseg-1/gprecoverseg.lock indicates that an instance of gprecoverseg is
If this is not the case, remove the lockfile directory at /app/gpdata/master/gpseg-1/gprecoverseg.lock
说明gprecoverseg命令已经在执行中,原因是,gp在重启的时候,会自动判断状态,并执行gprecoverseg命令,等待一端时间后在进行数据节点状态检查即可