hadoop集群慢盘故障

最新推荐文章于 2024-08-29 00:05:33 发布

tengkong22

最新推荐文章于 2024-08-29 00:05:33 发布

阅读量1.2k

点赞数 4

分类专栏：大数据文章标签：集群 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tengkong22/article/details/88336107

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

问题描述:集群节点pbigdata1出现慢盘故障（系统每一秒执行一次iostat命令，监控磁盘I/O的系统指标，如果在60s内，svctm大于100ms的周期数大于30次则认为磁盘有问题，产生该告警。）平台为华为大数据平台
本以为是系统网络原因导致的故障，顾将系统告警插除。后续再次出现告警，导致集群中组件出现故障。先是ZOOKEEPER出现故障，后出现集群平衡状态异常。
若发生此告警，说明集群中有GTM或者DN的主备关系发生变化，且变化后的主备关系与初始安装时不一致。此时集群中的主实例可能过多地被切换到一个节点上，
集群压力会集中到这个节点上，会导致集群负载不均衡，影响集群的性能。然后同一节点的其他服务也出现故障，最后pbigdata1节点所有服务全部故障，随后重启自动恢复。但是在3-10分钟之后该节点就会重复出现此情况。

集群中有sparksql在执行批量任务，任务周期为5分钟。本以为是此任务导致集群故障，后暂停任务后还是出现故障。查看节点日子出现超时情况，本以为是网络问题导致。

后到节点中去登陆查看网络情况，发现ssh链接时间超长。通过ping查看网络基本正常，就是ssh时会出现延迟在30s以上。在未发现其他问题的情况下选择重启系统，关机时间超长十几分钟左右。在启动之时系统自检，运维组大屏发现系统盘出现故障。后更换系统盘后集群恢复正常。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

tengkong22 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。