etcd 进程故障导致 ETCD 服务异常告警

最新推荐文章于 2023-07-13 20:41:58 发布

feidodo小程序

最新推荐文章于 2023-07-13 20:41:58 发布

阅读量1.6k

点赞数

文章标签： perl 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/feidodoxcx/article/details/127921249

版权

问题现象

etcd 进程 down、重启，管控面上报 etcd 服务异常告警

问题分析及界定

登陆故障 etcd 节点，进入 Ruby 用户，执行命令 ps ux | grep etcd，查看 etcd 进程是否在运行。

如果进程在，查看 etcd 进程启动时间，告警时是否重启过，联系华为工程师确认重启原因。

如果进程不在，查看 etcd 无法启动原因：

（1）cd $GAUSSLOG/bin, 查看目录下是否有 cluster_manual_start 和 etcd_manual_start 两个文件，

如果有表示集群被停止，确认停止集群的原因，之后启动集群，定位结束。

（2）cd $GAUSSHOME/bin 查看目录下是否存在 etcd 这个文件，文件权限是否正确，确认文件不存在或权限不正确的原因。

（3）检查 etcd 的数据目录所在磁盘是否满了或者故障，etcd 目录如下：cm_ctl query -Cvipd 查看

检查 etcd 的数据目录所在磁盘是否满了或者目录权限不正确（正确是 700）或者故障，

如果磁盘满，检查占用磁盘的文件并清除或者转存到其他盘，如果是 etcd 本身的文件占满，联系华为工程师分析原因。

如果目录权限不正确，修改为正确的目录权限。如果是磁盘故障，联系 IaaS 技术支持分析定位。

处理步骤

参照上述处理，如果不是以上原因，请联系华为工程师

OM 接口无法正确返回结果导致 ETCD 服务异常告警

问题现象

管控面上报 etcd 服务异常告警，管控无法获取集群状态

问题分析及界定

查看管控面是否获取集群状态成功，是否获取空消息，联系华为工程师分析定位。

cd $GAUSSLOG/om/

查看 gs_om-xxx.log，是否有如下异常日志

例如： The status file does not exist. Path: /usr/local/temp/local_status_1611355718.58.dat.

feidodo小程序

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
etcd 进程故障导致 ETCD 服务异常告警

etcd 进程故障导致 ETCD 服务异常告警
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。