集群一个节点系统崩溃,Ceph osd还能工作,手工下线各个磁盘后,节点无法执行销毁操作,mon、mgr、osd都残留在集群中,建议逐个下线osd或者逐步调低osd权重,如果数据量非常大集群需要很长时间来完成数据平衡工作,并且数据平衡期间影响性能。
以下是处理过程:
一、降低节点下线的存储影响
1、调低OSD权重
ceph osd reweight <ID> 0.8 #最大是1,也就是100%
ceph osd reweight 53 0.5
2、带数据量比较小时执行下线osd操作:
ceph osd out <ID>
systemctl stop ceph-osd@<ID>.service
pveceph osd destroy <ID> #该环节节点执行失败
2、所有osd 完成停止后,直接关闭节点电源,#系统故障无法执行安
二、从pve集群执行删除节点操作
1、删除节点,在任意节点执行
pvecm delnode nodename
2、清除痕迹,准备使用原IP再次加入集群
切换到Proxmox VE 集群任意节点宿主系统Debian 命令行,进入目录“/etc/pve/priv”,备份文件“authorized_keys”与“known_hosts”。
然后编辑文件“authorized_keys”与“known_hosts”。用Vi编辑器或者Sed指令删除已经被删除的节点信息,,这里需要注意的是包含节点名称、节点IP的行都需要删除,保存退出,集群中的其它节点也会被corosync自动同步,不用再做重复处理。
三、从ceph集群删除节点残留信息
1、确认要处理的osd信息,任意节点执行,
eph osd tree
2、逐个删除节点上的osd
[root@dev01 ~]$ ceph osd rm 10
removed osd.10
……
3、删除该节点上所有osd 的crush map
[root@dev01 ~]$ ceph osd crush rm osd.10
removed item id 10 name 'osd.10' from crush map
……
4、 删除该节点上所有osd 的认证
[root@dev01 ~]$ ceph auth del osd.10
update
……
5、ceph osd tree中删除此节点的crush map
[root@dev01 ~]$ [root@dev01 ~]$ ceph osd crush rm dev00
6、删除此节点的mon
[root@dev01 ~]$ [root@dev01 ~]$ ceph mon remove dev00
7、修改/etc/pve/ceph.conf
先备份配置文件:cp ceph.conf ceph.conf_bak
删除mon_host行已损坏的节点ip
删除mon信息 [mon.dev00],保存退出
到这里你可以使用原节点ip和名称重新安装部署pve超融合节点并加入集群了
四、处理被OSD占用的磁盘,重新加入集群
直接在pve控制擦除磁盘会提示disk/partition '/dev/sdb' has a holder (500),使用lvremove及vgremove、格式化磁盘等其他方法均无法清理。查阅官方的帮助手册,
If the disk was in use before (for example, for ZFS or as an OSD) you first need to zap all traces of that usage. To remove the partition table, boot sector and any other OSD leftover, you can use the following command:
ceph-volume lvm zap /dev/sd[X] --destroy
中文的意思是:如果磁盘之前正在使用中(例如,用于 ZFS 或作为 OSD),则首先需要 以消除该用法的所有痕迹。要删除分区表,请引导扇区和 任何其他剩余的 OSD 都可以使用以下命令:
ceph-volume lvm zap /dev/sd[X] --destroy
查阅发现有博客遇到了我相同的问题,博客,使用dmsetup工具也可以完成相关操作
1、使用lsblk或者 dmsetup ls查询磁盘占用
2、dmsetup remove 处理
dmsetup remove ceph--d425f17c--a2ed--4938--bfd7--5f34626cd2f2-osd--block--31fa4958--fa45--45de--b3b2--c418ee349ff5
wipefs -a /dev/sdc
磁盘就可以重新使用了
建议使用官方手册的指导方法,一步到位。
其他参考链接:
dmsetup--device mapper 管理工具(误删除逻辑卷lvm设备文件处理方法)-CSDN博客
ceph 维护系列(一)删除一个ceph 节点-CSDN博客