Storm排错调优之Worker重启

                                                        Storm排错调优之Worker重启

            在storm运行log中可以看到worker.log日志显示shutting  down  xxxworker。

           在相同的时间点位于storm运行日志中的supervisor.log显示kill xxx ,xxx就是对应的workerid

    从而可以断定是supervisor重启了worker。

然而supervisor为何重启worker,默认supervisor和worker之间的心跳时间是30000ms,

而运行过程中心跳远大于这一值。

所以导致重启。

但是为何supervisor和worker之间的心跳时间会如此之长,查看zookeeper的运行日志显示,

在同一时间点有几台zookeeper  shutdown 和goodBye。

而且均显示Too Many Connections  from  xxx  --max is 60。

Zk日志中均显示Unable to read additional data from client sessionid 0x664b3c031710068, likely client has closed socket

 

由此猜测是否是zookeeper最大客户端连接数为60,实际运行中和zk交互的远不止60个,导致部分connection等待,

也就是supervisor等待。等到时间超过supervisor和worker之间通信时间30000ms,最终导致HB心跳监测不到认为worker挂掉并重启worker。

 

解决:

  1. 将zk与supervisor分离,在supervisor机器上不安装zk.
  2. 将zk的最大连接数设置为0(不限制最大连接数) ,而不是默认的60

               在zoo.cgf中设置maxClientCnxns = 60

    3.(重要)加大supervisor和worker之间HB心跳时间为60

               在storm.yaml中设置supervisor.worker.timeout.secs

 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值