etcd 进程故障导致 ETCD 服务异常告警

问题现象

etcd 进程 down、重启,管控面上报 etcd 服务异常告警

问题分析及界定

登陆故障 etcd 节点, 进入 Ruby 用户,执行命令 ps ux | grep etcd, 查看 etcd 进程是否在运行。

如果进程在,查看 etcd 进程启动时间,告警时是否重启过,联系华为工程师确认重启原因。

如果进程不在,查看 etcd 无法启动原因:

(1)cd $GAUSSLOG/bin, 查看目录下是否有 cluster_manual_start 和 etcd_manual_start 两个文件,

如果有表示集群被停止,确认停止集群的原因,之后启动集群,定位结束。

(2)cd $GAUSSHOME/bin 查看目录下是否存在 etcd 这个文件,文件权限是否正确,确认文件不存在或权限不正确的原因。

(3)检查 etcd 的数据目录所在磁盘是否满了或者故障,etcd 目录如下:cm_ctl query -Cvipd 查看

检查 etcd 的数据目录所在磁盘是否满了或者目录权限不正确(正确是 700)或者故障,

如果磁盘满,检查占用磁盘的文件并清除或者转存到其他盘,如果是 etcd 本身的文件占满,联系华为工程师分析原因。

如果目录权限不正确,修改为正确的目录权限。如果是磁盘故障,联系 IaaS 技术支持分析定位。

处理步骤

参照上述处理,如果不是以上原因,请联系华为工程师

OM 接口无法正确返回结果导致 ETCD 服务异常告警

问题现象

管控面上报 etcd 服务异常告警, 管控无法获取集群状态

问题分析及界定

查看管控面是否获取集群状态成功,是否获取空消息,联系华为工程师分析定位。

cd $GAUSSLOG/om/

查看 gs_om-xxx.log,是否有如下异常日志

例如: The status file does not exist. Path: /usr/local/temp/local_status_1611355718.58.dat.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值