【GaussDB】如何解决Ops巡检-agentmonitor进程状态异常?

告警解释

DBS运维管理平台提供指标监控能力,监测到agentmonitor进程不存在,产生此告警。

告警属性

告警ID

告警级别

告警类型

告警归属

业务类型

是否可自动清除

5101270

巡检配置

业务质量告警

租户面

云数据库 GaussDB 节点

告警参数

类别

参数名称

参数含义

定位信息

云服务

产生告警的云服务

实例ID

产生告警的实例ID

节点ID

产生告警的节点ID

巡检名称

产生告警的巡检名称

指标编码

产生告警的指标编码

附加信息

租户名称

产生告警的租户名称

实例名称

产生告警的实例名称

租户ID

产生告警的租户ID

云服务

产生告警的云服务

服务

产生告警的服务

微服务

产生告警的微服务

告警源IP

告警源IP

节点角色

产生告警节点的节点角色

指标编码

产生告警节点的指标编码

指标采集值

产生告警节点的指标采集值

指标阈值

产生告警节点的指标阈值

对系统的影响

如果有持续告警时,此时Agent相关进程则没有进程来监听是否存活,并且无法执行升级Agent等操作。

可能原因
  • agent_monitor进程报错退出并且启动失败。
  • /etc/crontab 中缺失这个定时任务 /dbs/monitorAgent/crontab_monitor.sh。
处理步骤
  1. 在告警信息中获取节点ID,通过登录实例节点操作,登录上节点,切换root用户。
  2. root用户执行 cat /etc/crontab,查看有无 /dbs/monitorAgent/crontab_monitor.sh 这条记录。

    • 不存在记录,执行3
    • 存在记录,执行4

    获取选中的配置信息,如 */1 * * * * Ruby /bin/bash /dbs/monitorAgent/crontab_monitor.sh

  3. 使用root用户执行 vim /etc/crontab。

    1. 2获取的配置信息添加进去。
    2. 执行service cron reload刷新 crond 服务,让其加载新修改的配置。
    3. 等待2秒再执行 ps -ef | grep python查看agent_monitor 进程是否存在。

      如果不存在,执行4

  4. 执行 vim /home/Ruby/log/agent_process_monitor.log 查看agent_monitor进程的日志。

    检测是否有相关异常无法拉起(如图,但图中的异常仅是个示例,并不代表实际情况),如果存在异常,请联系技术支持

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

更多详情请参考GaussDB 文档中心:https://doc.hcs.huawei.com/db/zh-cn/gaussdbqlh/24.1.30/productdesc/qlh_03_0001.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值