问题描述:集群节点pbigdata1出现慢盘故障(系统每一秒执行一次iostat命令,监控磁盘I/O的系统指标,如果在60s内,svctm大于100ms的周期数大于30次则认为磁盘有问题,产生该告警。)平台为华为大数据平台
本以为是系统网络原因导致的故障,顾将系统告警插除。后续再次出现告警,导致集群中组件出现故障。先是ZOOKEEPER出现故障,后出现集群平衡状态异常。
若发生此告警,说明集群中有GTM或者DN的主备关系发生变化,且变化后的主备关系与初始安装时不一致。此时集群中的主实例可能过多地被切换到一个节点上,
集群压力会集中到这个节点上,会导致集群负载不均衡,影响集群的性能。然后同一节点的其他服务也出现故障,最后pbigdata1节点所有服务全部故障,随后重启自动恢复。但是在3-10分钟之后该节点就会重复出现此情况。
集群中有sparksql在执行批量任务,任务周期为5分钟。本以为是此任务导致集群故障,后暂停任务后还是出现故障。查看节点日子出现超时情况,本以为是网络问题导致。
后到节点中去登陆查看网络情况,发现ssh链接时间超长。通过ping查看网络基本正常,就是ssh时会出现延迟在30s以上。在未发现其他问题的情况下选择重启系统,关机时间超长十几分钟左右。在启动之时系统自检,运维组大屏发现系统盘出现故障。后更换系统盘后集群恢复正常。