ceph集群osd故障修复实例演示

本文详细介绍了如何使用ceph-deploy和手动方式修复Ceph集群中出现故障的OSD。包括停止OSD服务、卸载挂载分区、格式化磁盘、更新集群状态、重新初始化和激活磁盘等关键步骤。通过这两种方法,可以有效地解决OSD故障问题,确保集群正常运行。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


集群安装方式:
1: ceph-deploy 方式安装ceph集群,模拟osd磁盘损坏;


分别采用如下两种方式修复:

1:使用ceph-deploy 方式修复故障osd;

2:手动修复故障osd;


#######使用ceph-deploy方式修复过程演示########

1:停止osd
/etc/init.d/ceph stop osd.3   

2:查看osd磁盘挂载情况;
[root@node243 ceph]# lsblk
NAME   MAJ:MIN RM  SIZE RO TYPE MOUNTPOINT
sda      8:0    0   50G  0 disk
├─sda1   8:1    0  500M  0 part /boot
├─sda2   8:2    0    2G  0 part [SWAP]
└─sda3   8:3    0 47.5G  0 part /
sdb      8:16   0  100G  0 disk
├─sdb1   8:17   0   95G  0 part /var/lib/ceph/tmp/mnt.x4MbgI
└─sdb2   8:18   0    5G  0 part /var/lib/ceph/osd/ceph-3
sr0     11:0    1 1024M  0 rom  

3:卸载挂载分区
umount /var/lib/ceph/osd/ceph-3
umount /var/lib/ceph/tmp/mnt.x4MbgI


4:格式化磁盘模拟磁盘损坏
mkfs.xfs  -f /dev/sdb

5:查看集群osd 状态
ceph osd tree
[root@node243 ceph]# ceph osd tree
ID WEIGHT  TYPE NAME            UP/DOWN REWEIGHT PRIMARY-AFFINITY
-6       0 host node01                                            
-1 0.44998 root default                                           
-2 0.09000     host ceph-deploy                                   
 0 0.09000         osd.0             up  1.00000          1.00000
-3 0.09000     host node241                                       
 1 0.09000         osd.1             up  1.00000          1.00000
-4 0.09000     host node242                                       
 2 0.09000         osd.2             up  1.00000          1.00000
-5 0.09000     host node243                                       
 3 0.09000         osd.3           down  1.00000          1.00000       《==发现osd状态down
-7 0.09000     host node245                                       
 5 0.09000         osd.5             up  1.00000          1.00000



6:将osd状态设置为out
ceph osd out osd.3      

7:将osd从集群中删除
ceph osd rm osd.3  

8:从CRUSH中移除     
ceph osd crush rm osd.3  
<

### 如何部署 Ceph OSD 集群 #### 准备工作 为了成功安装和配置 Ceph 存储集群,需要准备多个节点来运行不同的守护进程。对于OSD服务来说,这些通常是物理服务器或虚拟机[^1]。 #### 安装依赖包 在所有计划作为Ceph存储节点的机器上更新操作系统软件仓库并安装必要的工具集。这通常涉及操作系统的标准命令行工具如`yum`, `apt-get`或其他适用的包管理器: ```bash sudo apt update && sudo apt install ceph-deploy -y ``` 上述命令适用于基于Debian/Ubuntu的操作系统;对于RedHat/CentOS则应使用相应的`yum`指令[^2]。 #### 初始化 Monitor 节点 创建一个新的目录用于保存所有的配置文件,并初始化第一个Monitor实例: ```bash mkdir my-cluster cd my-cluster ceph-deploy new node1 ``` 这里假设`node1`是其中一台主机的名字,在实际环境中应当替换为真实的主机名或者IP地址[^3]。 #### 添加初始 MONitors 和收集密钥环 继续向集群中添加更多的监视器(MON),以提高其可用性和冗余度。同时获取管理员使用的keyring文件副本以便后续操作: ```bash ceph-deploy mon create-initial scp node1:/etc/ceph/ceph.client.admin.keyring . ``` 此过程会自动完成MON之间的通信设置以及初步的身份验证机制建立[^4]。 #### 部署 Manager 组件 (可选) 如果希望启用额外的功能比如仪表板,则可以部署Manager模块: ```bash ceph-deploy mgr create node1 ``` 注意这只是个例子,具体取决于所期望的服务特性集合[^5]。 #### 设置 Object Storage Devices (OSDs) 指定哪些设备将成为数据承载介质,并执行如下命令让它们加入到现有的Ceph网络里去: ```bash ceph-deploy osd prepare node1:sdb node2:sdc ... ceph-deploy osd activate node1:sdb1 node2:sdc1 ... ``` 这里的`sdb`,`sdc`代表目标磁盘标识符,请依据实际情况调整参数列表[^6]。 #### 校验状态 最后一步就是确认整个架构已经正常运作起来,可以通过下面的方式查看当前健康状况报告: ```bash ceph health ``` 当返回消息显示HEALTH_OK时即表示一切顺利[^7]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值