Ceph运维之换盘
在ceph集群里,磁盘出故障是不可避免,所以替换故障磁盘成为ceph日常运维不断重复的任务。本课程演示如何替换一个故障盘。
定位故障磁盘
#MegaCli -PDList -aALL|grep "Media Error"
Enclosure Device ID: 0
Slot Number: 3
Enclosure position: 0
Device Id: 2
Sequence Number: 2
Media Error Count: 227 <- 物理故障
Other Error Count: 2
Enclosure Device ID: 0
定位故障OSD
#lsblk -i|grep /dev/sdc
/dev/sdc1 on /var/lib/ceph/osd/ceph-1
停止故障OSD
systemctl status ceph-osd@1.service
虽然osd.1的服务已停止,然而他任然被标记为IN(集群中)状态。只要他的状态还是IN,Ceph集群就不会为他触发数据恢复。默认情况下,ceph集群需要5分钟来将一个DOWN状态的磁盘标记为OUT状态,然后开始数据恢复。我们可以手工将故障OSD标记为OUT。一旦该OSD被标记为OUT,ceph集群会为该OSD上的PG启动恢复过程。
当某个PG对应的OSD set中有一个OSD被标记为down时(假如是Primary被标记为down,则某个Replica会成为新的Primary,并处理所有读写 object请求),则该