影响:
小迪 xic@daemonrob.com 帐号 10.0.63.186 节点 主挂了 redis就挂了
9.29 8:40用户感知到了
报警信息:
onealert 没有报警
nq66 osd fd过高
gq1,gq3 osd报ERROR
8:02 onealert
新告警通知–8014480
警告: [QCOS][bq] target_job_down - Target job gateway_metrics is down
告警内容:(bq30)firing: bq30, resolved: ; [bq30]: Target job gateway_metrics is down: 192.168.192.30:2100 ;
发生时间:08:02:08
所属应用:
查看详情:http://t.cn/RGrYU0a
-------------OneAlert.com--------------
群昵称与OneAlert用户名一致,告警提醒更及时哦~
#+关键字 或 中文问号+关键字 来调戏机器人吧!
可能原因:?
1、 机器故障 硬盘坏了等问题 。 Bq 30盘硬件坏了 。
2、 根目录坏了 docker 的 opt根目录
3、 nq66 docker不工作 fd暴涨 osd重启后 fd还是暴涨
监控报警:
报警有了,处理 跟进不及时
跟进机制:
第一时间 迁移,
或者通知客户 是不是比让客户过来问 要好。
原因:根目录坏了 docker 的 opt根目录
导致小迪问题
4、 宕机、磁盘坏了、扇区坏了 。如何跟进 排查?
redis 主 目录 挂了,从 数据存在。迁移后 ,主可恢复。
6个节点 3个cluster 3个备份