Ceph osd异常退出故障处理

最新推荐文章于 2024-05-03 14:53:18 发布

weixin_34413357

最新推荐文章于 2024-05-03 14:53:18 发布

阅读量366

点赞数

文章标签： awk

原文链接：http://blog.51cto.com/linuxblind/1710187

版权

如果一个硬盘故障导致osd节点出现如下的down状态，且一直无法恢复（ reweight列等于0，表示osd已经out此集群）

[root@os-node3 ~]# ceph osd tree

# id weight type name up/down reweight

-1 4 root default

-2 1 host os-node5

0 1 osd.24 down 0

通过命令获得down状态的osd的ID

osd_id =` ceph osd tree | grep down | grep osd | awk '{print $3}' | awk -F . '{print $2}`

1）、在集群中删除一个osd硬盘

[root@PBS-OS-node155 ~]# ceph osd rm 24

removed osd.24

2）、在集群中删除一个osd 硬盘 crush map

[root@PBS-OS-node155 ~]# ceph osd crush rm osd.24

removed item id 24 name 'osd.24' from crush map

3）、删除此osd在ceph集群中的认证

[root@PBS-OS-node155 ~]# ceph auth del osd.24

updated

4）、卸载osd所挂载的硬盘

[root@PBS-OS-node155 ~]# umount /var/lib/ceph/osd/ceph-24

摘掉osd的脚本如下

osd_id=`ceph osd tree | grep down | grep osd | awk '{print $3}' | awk -F . '{print $2}'`

ceph osd rm ${osd_id}

ceph osd crush rm osd.${osd_id}

ceph auth del osd.${osd_id}

umount /var/lib/ceph/osd/ceph-${osd_id}

更换完硬盘后再把此硬盘重新加入集群osd

osd_id=`ceph osd create`

mkfs.xfs -f /dev/sdf

mount /dev/sdf /var/lib/ceph/osd/ceph-${osd_id}

mount -o remount,user_xattr /var/lib/ceph/osd/ceph-${osd_id}

ceph-osd -i ${osd_id} --mkfs --mkkey

ceph auth add osd.${osd_id} osd 'allow *' mon 'allow profile osd' -i /var/lib/ceph/osd/ceph-${osd_id}/keyring

touch /var/lib/ceph/osd/ceph-${osd_id}/sysvinit

/etc/init.d/ceph start osd.${osd_id}

转载于:https://blog.51cto.com/linuxblind/1710187

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34413357

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Ceph入门到精通-Ceph OSD 磁盘在系统重启后无法识别处理步骤

隔壁老瓦的专栏

06-07

220

【代码】Ceph入门到精通-Ceph OSD 磁盘在系统重启后无法识别处理步骤。

Ceph入门到精通-使用 Ceph 编排器管理 OSD

隔壁老瓦的专栏

05-19

1588

卸下 OSD 后，如果部署 OSD 的驱动器再次可用，如果这些驱动器与现有驱动器组规范匹配，则可能会自动尝试在这些驱动器上部署更多 OSD。硬盘容量每年增长约 40%，因此较新的 OSD 节点可能比存储集群中的旧节点具有更大的硬盘驱动器，也就是说，它们可能具有更大的权重。定义存储池时，归置组的数量决定了数据在所有可用 OSD 中的粒度等级。Cephadm 以分数开头，默认为系统中的总 RAM，减去非自动调整守护程序（如非 OSD）和 OSD 为 false 消耗的任何内存，然后除以剩余的 OSD。

参与评论您还未登录，请先登录后发表或查看评论

osd自动退出

weixin_34074740的博客

12-15

155

osd运行一段时间自动退出重启后正常运行一段时间又退出。日志片段如下：故障原因：防火墙权限配置问题导致转载于:https://blog.51cto.com/13179571/2051176...

ceph_osd故障检测

lv0918_qian的博客

04-26

472

当前monitor可以通过3种途径检测到osd离线

记一次ceph osd莫名其妙自动关闭进程异常

x_idcer的博客

01-27

2867

某个在运行的ceph系统，巡检时发现osd掉线了，尝试将其启动，可以正常启动，数据恢复也正常，但是运行1-2分钟后osd又掉了，检查osd状态发现： 7f0231d85d80 -1 osd.2 199 log_to_monitors {default=true} 7f021f689700 -1 received signal: Interrupt from Kernel ( Could be generated by pthread_kill(), raise(), abort(), alarm()

OSD故障排除

weixin_34318326的博客

01-25

851

OSD故障排除在调试你的OSD之前，先检查监视器和网络。当你执行ceph health或ceph -s命令后，正常情况下Ceph会返回一个健康状态，表明监视器具有一个Quoram。如果返回错误信息，首先应排除监视器自身问题。确保网络正常运行，因为网络对OSD操作和性能有显著影响。获得OSD数据在调试OSD时，除监视OSD得到的反馈信息外，还应尽可能获得更多的信息。(比如, c...

【ceph相关】osd异常问题处理（lvm信息丢失）

Luxf0的博客

07-01

2011

实验环境中，出现磁盘lvm信息丢失，磁盘未挂载，导致osd启动失败本文主要介绍如何重建lvm信息，以及如何恢复osd启动

ceph存储osd启动异常处理和正常启停操作

weixin_30814319的博客

01-22

998

机器角色：cloudstack虚拟机的宿主机；ceph存储机器。事件：ceph存储的物理机器由于内存异常，需要停机更换，仅仅是把该物理机上面的虚拟机迁移走，同时启动了停机维护，然后就直接关机。结果造成重启之后ceph异常原因：由于异常关闭，ceph进程的相关信息没有正常关闭，信息没有同步到文件系统，如pid文件等信息现象并尝试解决： 1）检查osd的整体信息 [root...

【ceph】Ceph 存储中 PGMap、OSDMap 和xxMap

小鱼菜鸟的博客

07-22

1349

目录简介 OSDMap PG 和 PGMap OSDMap 机制浅析 OSDMap 代码浅析二、OSDMap模块数据结构 1.osd_info_t 2.osd_xinfo_t 3.OSDMap 4.Incremental 三、MOSDMap消息四、OSDMap更新机制五、OSDMap要点分析六、获取OSDMap 1...

分布式存储ceph集群osd容量不一致或不同节点osd数量不一致的处理方法，避免集群节点卡死_ceph中不建议加osd还是副本数

2301_82242638的博客

04-12

500

最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！

【ceph】OSD心跳检测机制（前端后端网）

小鱼菜鸟的博客

07-22

743

目录 ceph心跳机制 OSD间的心跳机制发送接收超时检测 peer OSD选择 OSD和MON间的心跳机制总结： @bandaoyu,本文随时更新,连接：https://blog.csdn.net/bandaoyu/article/details/123018441 心跳是一种用于故障检测的手段。分布式系统中，各种异常，如...

【ceph】ceph OSD状态及常用命令

bandaoyu的note

04-16

1万+

1. OSD概念 OSD：Object Storage Device，主要负责响应客户端请求返回具体数据的守护进程，一般一个集群会有多个OSD，每一块盘都会对应一个OSD。 2. OSD 状态 [root@data1 ~]# ceph osd stat 4 osds: 3 up (since 23m), 3 in (since 13m); epoch: e345 OSD状态说明： a. 集群内（in） b. 集群外（out） c. 活着且在运行（up） d. 挂了且不再运行（down） .

2024年Linux CentOS 环境下安装JDK的三种方法(2)，2024年最新农民工看完都学会了

2401_83947434的博客

05-03

1116

为了做好运维面试路上的助攻手，特整理了上百道，让你面试不慌心不跳，高薪offer怀里抱！这次整理的面试题，本份面试集锦涵盖了1、什么是运维?2、在工作中，运维人员经常需要跟运营人员打交道，请问运营人员是做什么工作的?3、现在给你三百台服务器，你怎么对他们进行管理?4、简述raid0 raid1raid5二种工作模式的工作原理及特点5、LVS、Nginx、HAproxy有什么区别?工作中你怎么选择?6、Squid、Varinsh和Nginx有什么区别，工作中你怎么选择?

Ceph集群显示XXX daemons have recently crashed警告

QTM_Gitee的博客

05-08

1万+

问题： Ceph集群一直显示XXX daemons have recently crashed，而且数目越来越多; 解决方法：最近有一个或多个Ceph守护进程崩溃，管理员尚未对该崩溃进行存档(确认)。这可能表示软件错误、硬件问题(例如，故障磁盘)或某些其它问题。系统中所有的崩溃可以通过以下方式列出： # ceph crash ls ID ENTITY NEW 2020-0

ceph OSD 故障记录

weixin_34212189的博客

11-06

342

故障发生时间: 2015-11-05 20.30 故障解决时间: 2015-11-05 20:52:33 故障现象: 由于 hh-yun-ceph-cinder016-128056.vclound.com 硬盘故障, 导致 ceph 集群产生异常报警故障处理: ceph 集群自动进行数据迁移, 没有产生数据丢失...

一个ceph-osd异常DOWN掉的原因分析

hailwind的专栏

09-11

1万+

今天早上，运维的兄弟报告说，ceph分布式存储集群同时有3个OSD异常DOWN掉。因为CEPH集群是三份数据存储的，所以对业务没有什么太大的影响，所以等有空再查根本原因。同时报告了有一台物理机当机了，做了重启恢复的操作。有空的时候对问题进行了分析，同事进行了预查，发现如下： 1、在osd down掉的一段时间，所有的CEPH节点的网络流量都高上去了。 2、3个OSD down掉

部署完ceph出现 osd down情况时的解决方法