Proxmox VE 超融合集群不停服务更换硬盘操作实录

情况描述

四节点组成的proxmox VE超融合集群,连续运行时间超过500天。每个节点除了系统盘而外,由四个单独的2.4T 10000转sas盘做ceph osd。
在这里插入图片描述
在这里插入图片描述

监控发现,其中一个节点的一块硬盘处于down的状态,尝试修复未获得成功,登录系统,发现系统日志有大量的IO错误,由此判断,一定是硬盘物理损坏。再通知机房,请值班技术帮忙,现场查看硬盘指示灯状态,有一块硬盘常亮红灯,确认故障与判断一致。

标题故障修复计划

由于是在线系统,服务不允许停止,这是最基本的要求。非常幸运的是,proxmox VE去中心化超融合集群,在保证集群得以维持的情况下,可以关掉任意一台或者多台物理服务器(别的超融合平台有控制节点,这个控制节点不能关)。

没有停机担忧以后,做出如下安排:
 把有故障的物理机上正在运行的虚拟机,加入到ha中;
 停机换硬盘;
 系统识别硬盘;
 创建osd;
 回迁部分虚拟机到恢复好的物理节点。

标题故障修复实施

一切准备妥当之后,风高月黑之夜派人潜入机房,待命。按照计划,进行如下的步骤:

  1. Web管理界面,把故障机运行着的虚拟机的ID号记录下来,然后将其加入到proxmox VE的HA(此高可用与pve集群不同,是建立在pve集群之上的)。
    在这里插入图片描述
    在这里插入图片描述
  2. 关机,查看故障机运行的虚拟机是否全部自动漂移(对照记录下来的虚拟机id号)。
    在这里插入图片描述
  3. 通知机房待命的兄弟,拔出坏硬盘,身手敏捷地插上新硬盘。启动系统,看系统是否识别硬盘,不幸的是,没有被识别(其实也是意料之中),需要进入raid卡的控制控制界面,把这个新盘做成raid 0(单盘raid0 ,强烈建议不要搞raid 5),再启动,能识别到这个硬盘,具体的指令就是df -h。
  4. 执行下列命令初始化新更换的磁盘:
    wipefs -af /dev/sdc #sdc为新更换的磁盘设备名称
wipefs -af /dev/sdc
  1. Web管理界面创建osd。如果下拉列表提示“没有未使用的磁盘”,可以重复第“4”步。
    在这里插入图片描述
  2. 刷新页面,查看新的osd是否已经被正确加入。同时也可以在命令执行如下指令进行同步验证:
    ceph osd tree
ceph osd tree

在这里插入图片描述
7. 回迁部分虚拟机到恢复好物理节点。点鼠标就行,不再赘述。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

4/5$全真龙门

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值