由于物理机异常宕机引起osd启动故障,引发ceph集群故障的修复
某日凌晨,发现一个存储集群的4台存储节点(20个osd)宕机发现是dell的四胞胎,初步排查是由于单个电源模块故障导致,该机器存在的问题:1:电源模块有故障2:所有的盘做了单盘raid0的模式3:机器已过保4:raid卡电池推测已耗尽5:使用了raid 缓存异常宕机后导致的问题:1:存在硬盘损坏2:断电瞬间的缓存数据未写入磁盘3:部分节点无法正常启动4:部分osd节点无法自启集群存储的问题由于该集群为2副本,存储节点宕机比较多,宕机导...
原创
2020-06-18 11:11:41 ·
1910 阅读 ·
0 评论