gprecoverseg命令无法恢复Greenplum集群中挂掉的Segment实例

Georgetwo

已于 2023-12-21 21:23:42 修改

阅读量1.7k

点赞数 20

文章标签：数据库运维

于 2023-12-09 19:50:01 首次发布

本文链接：https://blog.csdn.net/Georgetwo/article/details/134899112

版权

问题描述：
Ubuntu系统上用docker启动四个容器，一个模拟master节点，剩下三个模拟segment节点。部署greenplum完毕想安装GPCC，按教程需要先设置shared_preload_libraries为 metrics_collector。结果设置后重启greenplum失败，后在各segment的postgresql.conf中删除该参数，一不小心少删了几个segment，倒是能够重启成功，但是有几个segment一直是挂的，试了无数遍gprecoverseg、gprecoverseg -i recover.conf都不管用，均报如下错误：

20231209:06:26:41:005540 gprecoverseg:196afe030ab2:gpadmin-[INFO]:-Did not start the following segments due to failure while updating the port.Please update the port in postgresql.conf located in the segment’s data directory
20231209:06:26:41:005540 gprecoverseg:196afe030ab2:gpadmin-[INFO]:- hostname: 468b6785b82d; port: 7000; datadir: /home/gpadmin/gpdata/gpdatam1/gpseg6
20231209:06:26:41:005540 gprecoverseg:196afe030ab2:gpadmin-[INFO]:- hostname: 468b6785b82d; port: 7001; datadir: /home/gpadmin/gpdata/gpdatam2/gpseg7
20231209:06:26:41:005540 gprecoverseg:196afe030ab2:gpadmin-[INFO]:-Triggering FTS probe
20231209:06:26:41:005540 gprecoverseg:196afe030ab2:gpadmin-[ERROR]:-gprecoverseg failed. Please check the output for more details.

提示我segment的postgresql.conf中端口号有问题，但我多次确认，端口号没有问题。

解决方案：
死马当活马医，直接将系统表中被标记为down的segment人为改为up。先停掉整个greenplum集群：