hadoop集群慢盘故障

 问题描述:集群节点pbigdata1出现慢盘故障(系统每一秒执行一次iostat命令,监控磁盘I/O的系统指标,如果在60s内,svctm大于100ms的周期数大于30次则认为磁盘有问题,产生该告警。)平台为华为大数据平台
     本以为是系统网络原因导致的故障,顾将系统告警插除。后续再次出现告警,导致集群中组件出现故障。先是ZOOKEEPER出现故障,后出现集群平衡状态异常。
若发生此告警,说明集群中有GTM或者DN的主备关系发生变化,且变化后的主备关系与初始安装时不一致。此时集群中的主实例可能过多地被切换到一个节点上,
集群压力会集中到这个节点上,会导致集群负载不均衡,影响集群的性能。然后同一节点的其他服务也出现故障,最后pbigdata1节点所有服务全部故障,随后重启自动恢复。但是在3-10分钟之后该节点就会重复出现此情况。

集群中有sparksql在执行批量任务,任务周期为5分钟。本以为是此任务导致集群故障,后暂停任务后还是出现故障。查看节点日子出现超时情况,本以为是网络问题导致。

     后到节点中去登陆查看网络情况,发现ssh链接时间超长。通过ping查看网络基本正常,就是ssh时会出现延迟在30s以上。在未发现其他问题的情况下选择重启系统,关机时间超长十几分钟左右。在启动之时系统自检,运维组大屏发现系统盘出现故障。后更换系统盘后集群恢复正常。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

tengkong22

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值