情况描述
四节点组成的proxmox VE超融合集群,连续运行时间超过500天。每个节点除了系统盘而外,由四个单独的2.4T 10000转sas盘做ceph osd。
![b76f4cbae4d137e758d89fc6ad02e47e.png](https://img-blog.csdnimg.cn/img_convert/b76f4cbae4d137e758d89fc6ad02e47e.png)
![0d70b50d50a7984338f1c36966cd6307.png](https://img-blog.csdnimg.cn/img_convert/0d70b50d50a7984338f1c36966cd6307.png)
监控发现,其中一个节点的一块硬盘处于down的状态,尝试修复未获得成功,登录系统,发现系统日志有大量的IO错误,由此判断,一定是硬盘物理损坏。再通知机房,请值班技术帮忙,现场查看硬盘指示灯状态,有一块硬盘常亮红灯,确认故障与判断一致。
故障修复计划
由于是在线系统,服务不允许停止,这是最基本的要求。非常幸运的是,proxmox VE去中心化超融合集群,在保证集群得以维持的情况下,可以关掉任意一台或者多台物理服务器(别的超融合平台有控制节点,这个控制节点不能关)。
没有停机担忧以后,做出如下安排:
ü 把有故障的物理机上正在运行的虚拟机,加入到ha中;
ü 停机换硬盘