Storm 集群监控报警-问题排查记录

Storm 集群监控报警-问题排查记录

1. 问题一、cpu繁忙

1.1. 报警信息

PROBLEM P0 Endpoint:xxx Metric:cpu.idle Tags: all(#3): 12.84751⇐20 Note:cpu繁忙 Max:3, Current:1 Timestamp:2016-07-27 15:10:00 

1.2. 排查步骤

1、查看集群host,终端a0xx对应Strom Bxx 集群,ip地址1xxx。 
2、通过openfalcon搜索StormManagerStormDBD_StormBJ004_System,查看cpu.idle界面 
3、在15:07左右,cpu.idle<20% 
4、登录supervisor节点,在/opt/logs/stormlog3目录下查看supervisor.log,日志信息是:2016-07-27 15:07:39 b.s.d.supervisor [INFO] 89a46d5d-3e30-4f46-92d3-ac3a2d38a050 still hasn't started 
5、登录集群nimbus节点,在/opt/logs/stormlog3目录下查看nimbus.log:tail nimbus.log。 
6、发现日志中发生了任务重启:2016-07-27 15:07:36 b.s.d.nimbus [INFO] Setting new assignment for topology id Real_Yk_Album_VvCount-19-1469603255:…… 

1.3. 分析

任务重启导致队列中消息增多,cpu处理繁忙。

2. 问题二、cpu波动

2.1. 报警信息

2.2. 排查步骤

询问相关用户是否是业务代码有问题。

3. 问题三、cpu分配不均匀

3.1. 报警信息

3.2. 排查步骤

fdxxx任务使用了三个worker,cpu使用率差异100倍,这种情况需要解决一下,以免影响任务的正常执行。

4. 问题四、任务的tps有大幅增加

4.1. 报警信息

4.2. 排查步骤

从adxxx任务的tps来看,最近2个月有2次数据的上升,任务的worker数量一直没有变化。建议将worker数从15设置为20个。

5. 问题五、磁盘IO吃紧

通常去找哪些任务的日志增长比较快,问题基本是由于这带来的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值