Datanode heartbeat timeout

最新推荐文章于 2023-03-19 23:56:07 发布

Joe?

最新推荐文章于 2023-03-19 23:56:07 发布

阅读量133

点赞数

原文链接：http://blog.51cto.com/boylook/1301896

版权

早晨看到报警发现2个dead Datanode，查看系统日志发现当时的负载持续高位导致datanode超时没有发送心跳被DatanodeManager摘除，进一步发现高负载是因为一个Job的小文件太多而没有进行map file合并导致在这2台节点上同时起的MAP太多导致的，解决方法参考：http://boylook.blog.51cto.com/7934327/1298651

这里主要看看HeartbeatManager 对datanode心跳处理流程：

HeartbeatManager会启动一个Daemon线程heartbeatthread，每5秒活动一次，其中每heartbeatRecheckInterval（默认5分钟）秒做一次心跳检测；这个过程会调用datanodemanager去检查datanode的lastupdate，如果超过heartbeatExpireInterval（= 2 * heartbeatRecheckInterval

+ 10 * 1000 *heartbeatIntervalSeconds（默认3秒钟））则认为datanode已经dead，从heartbeatmanager,blockmanager和networktopology中删除该datanode的信息；

和高负载的持续时间也是吻合的，调整了MAP合并后解决.

转载于:https://blog.51cto.com/boylook/1301896

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datanode heartbeat timeout

早晨看到报警发现2个dead Datanode，查看系统日志发现当时的负载持续高位导致datanode超时没有发送心跳被DatanodeManager摘除，进一步发现高负载是因为一个Job的小文件太多而没有进行map file合并导致在这2台节点上同时起的MAP太多导致的，解决方法参考：http://boylook.blog.51cto.com/7934327/1298651...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。