Proxmox VE 磁盘故障排查

本文记录了一次PVE节点磁盘故障的排查及处理过程。从Web管理后台发现告警开始,通过SSH登录、执行系统命令如df–h和cephosdtree等,定位到故障磁盘为/dev/sdc。尝试在线修复失败后,采取离线操作,包括清空磁盘、重建卷等步骤,最终确认硬盘物理损坏,需更换新硬盘。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

故障表现

Web管理后台发现告警,如下图所示:

Pve40这个节点的某个盘down掉了。

问题排查

ssh登录pve40这个机器所在的系统,执行df –h查看磁盘挂接情况,得到如下输出:
在这里插入图片描述
通过挂接点名称(ceph-13)与故障osd的id相对照,可以准确无误的判断出物理磁盘/dev/sdc出现了故障。
在这里插入图片描述

修复尝试

在告知其它人发生故障以后,并确认故障处理不会导致任何负面作用的情况下,先试着从web管理界面选取故障osd,然后点击“启动”按钮尝试启动,但是很遗憾,不能获得成功。

再次回答系统命令行,执行ceph osd tree确认故障是否与web管理界面所变现的相一致。为了不对运维造成压力(其它人员看到有黄色报警,毕竟还是有点别扭,不懂的人还可能会发飙),决定对故障盘离线并进行如下尝试:
1、 df –h 查看一下磁盘是否被挂载
2、 ceph osd out osd.13 离线操作
3、 ceph auth del osd.13 ;ceph osd rm 13;ceph osd crush remove osd.13
4、 wipefs -af /dev/sdc 清空磁盘
5、 ceph-volume lvm zap /dev/sdc 创建ceph卷
6、 web界面尝试重新创建osd。
到最后一步执行创建的时候,界面一直在转圈,点开日志详情,可看到具体的原因,如下图所示:
在这里插入图片描述
输入输出问题,根据多年的经验,硬盘多半物理损害。修复无望,通知相关人员联系机房,从服务器面板查看指示灯状态,没多久,传来服务器照片。
在这里插入图片描述
果然亮起了红灯,等着换新硬盘吧。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

4/5$全真龙门

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值