openstack的osd，up不起来原因【重建osd日志盘软连接方法】

2401_84048554

于 2024-05-16 21:05:16 发布

阅读量679

点赞数 10

分类专栏：程序员文章标签： openstack

本文链接：https://blog.csdn.net/2401_84048554/article/details/138975074

版权

程序员专栏收录该内容

455 篇文章 0 订阅

订阅专栏

-12 43.67993 host stor11

87 5.45999 osd.87 down 0 1.00000

-15 43.67993 host stor14

109 5.45999 osd.109 down 0 1.00000

-17 43.67993 host stor16

125 5.45999 osd.125 down 0 1.00000

127 5.45999 osd.127 down 0 1.00000

-20 43.67993 host stor19

144 5.45999 osd.144 down 0 1.00000

146 5.45999 osd.146 down 0 1.00000

30号凌晨2点左右，ceph集群数据同步还差1.5%，但是已经不同步数据了。其中有7个pgs down

启动了25个down掉的osd，其中大部分osd是以前down的

单个osd up全过程【故障节点执行】

==================================================================================

查看ceph osd状态

service ceph status

lsblk查看日志软连接

一般会有一个盘会化很多分区用来分别存储每一个osd的日志，如这个就是sdg盘（有多少个osd就会有多少个分区）

[root@stor12 dev]# lsblk【列出所有可用块设备的信息,而且还能显示他们之间的依赖关系】

NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT【其他硬盘单个做osd】

sda 8:0 0 5.5T 0 disk

└─sda1 8:1 0 5.5T 0 part /var/lib/ceph/osd/ceph-90

sdb 8:16 0 5.5T 0 disk

└─sdb1 8:17 0 5.5T 0 part /var/lib/ceph/osd/ceph-91

sdc 8:32 0 5.5T 0 disk

└─sdc1 8:33 0 5.5T 0 part /var/lib/ceph/osd/ceph-92

sdd 8:48 0 5.5T 0 disk

└─sdd1 8:49 0 5.5T 0 part /var/lib/ceph/osd/ceph-93

sde 8:64 0 5.5T 0 disk

└─sde1 8:65 0 5.5T 0 part /var/lib/ceph/osd/ceph-94

sdf 8:80 0 5.5T 0 disk

└─sdf1 8:81 0 5.5T 0 part /var/lib/ceph/osd/ceph-95

sdg 8:96 0 893.8G 0 disk 【2个固态硬盘做raid1，做日志的软连接存储目录】

├─sdg1 8:97 0 92.2G 0 part

├─sdg2 8:98 0 92.2G 0 part

├─sdg3 8:99 0 92.2G 0 part

├─sdg4 8:100 0 92.2G 0 part

├─sdg5 8:101 0 92.2G 0 part

├─sdg6 8:102 0 92.2G 0 part

├─sdg7 8:103 0 92.2G 0 part

└─sdg8 8:104 0 92.2G 0 part

sdh 8:112 0 5.5T 0 disk

└─sdh1 8:113 0 5.5T 0 part /var/lib/ceph/osd/ceph-88

sdi 8:128 0 5.5T 0 disk

└─sdi1 8:129 0 5.5T 0 part /var/lib/ceph/osd/ceph-89

sdj 8:144 0 5.5T 0 disk 【2个硬盘做raid1，安装系统】

├─sdj1 8:145 0 4M 0 part

├─sdj2 8:146 0 1G 0 part /boot

└─sdj3 8:147 0 582G 0 part

├─rhel_stor12-root 253:0 0 500G 0 lvm /

├─rhel_stor12-swap 253:1 0 32G 0 lvm [SWAP]

└─rhel_stor12-home 253:2 0 50G 0 lvm /home

查看软连接【定位问题】

查看ceph-osd的日志盘

cd /var/lib/ceph/osd【查看全部osd的软连接】

ls -l ceph-*/journal

下面就是每个osd对应的日志软连接，如果和lsblk的对应不上，则表示该服务器重启后软连接便了（盘符变了，比如sdg变成了sda），这时候就会导致启动osd的时候找到不到日志存储盘，所以osd无法up。

[root@stor03 osd]# cd /var/lib/ceph/osd/【进到日志目录】

[root@stor03 osd]# ls -l ceph-*/journal【查看所有软连接】

lrwxrwxrwx 1 root root 9 Dec 30 2019 ceph-16/journal -> /dev/sdg1

lrwxrwxrwx 1 root root 9 Dec 30 2019 ceph-17/journal -> /dev/sdg2

lrwxrwxrwx 1 root root 9 Dec 30 2019 ceph-18/journal -> /dev/sdg3

lrwxrwxrwx 1 root root 9 Dec 30 2019 ceph-19/journal -> /dev/sdg4

lrwxrwxrwx 1 root root 9 Dec 30 2019 ceph-20/journal -> /dev/sdg5

lrwxrwxrwx 1 root root 9 Dec 30 2019 ceph-21/journal -> /dev/sdg6

lrwxrwxrwx 1 root root 9 Dec 30 2019 ceph-22/journal -> /dev/sdg7

lrwxrwxrwx 1 root root 9 Dec 30 2019 ceph-23/journal -> /dev/sdg8

[root@stor03 osd]#

重建软连接【确定问题后】

比如发现软连接显示的磁盘目录和lsblk查看的结果不一致，进入到该osd目录，比如ceph-90不一致

cd /var/lib/ceph/osd/ceph-90/

ls -l【核实软连接和lsblk确实不一致】

rm -f journal【删除这个软连接】

ln -s /dev/sdg1 journal【重建这个软连接，以lsblk的为准】

注：上面重建软连接步骤，有多少个盘就重复多少次，比如上面有sdg1~sdg8就需要重复8次该操作。

up osd

service ceph status osd.90 【查看osd.90状态】

service ceph start osd.90【启动osd.90，也可以这样：/etc/init.d/ceph start osd.90】

service ceph status【查看全部】

【在存储节点，查看osd.90对应的日志，查看osd是否正常】

cd /var/log/ceph

tail -f ceph-osd.90.log

出现going to standby正常

有time out的是osd down的时间节点

说明

有些软连接是使用的盘名称，所以会发生上述情况，如果使用的是uuid，则一般不会发生上述情况，uuid显示结果如下

[root@stor-3 ~]# cd /var/lib/ceph/osd

[root@stor-3 osd]# ls -l ceph-*/journal

lrwxrwxrwx 1 root root 58 Dec 27 2016 ceph-10/journal -> /dev/disk/by-partuuid/35534a97-7c23-4cd1-9f37-0557a21f1cf5

lrwxrwxrwx 1 root root 58 Dec 27 2016 ceph-13/journal -> /dev/disk/by-partuuid/fd9a7e66-d69e-4cd6-b955-1f65fbd348e4

lrwxrwxrwx 1 root root 58 Dec 27 2016 ceph-14/journal -> /dev/disk/by-partuuid/16d94f0a-92b0-4368-99d0-823d2a6fdd47

lrwxrwxrwx 1 root root 58 Dec 27 2016 ceph-17/journal -> /dev/disk/by-partuuid/0ac7bfe9-5311-4b93-8c1b-b3f512054021

lrwxrwxrwx 1 root root 58 Dec 27 2016 ceph-18/journal -> /dev/disk/by-partuuid/72893f30-0dd6-4183-850b-922b7789fb6a

lrwxrwxrwx 1 root root 58 Dec 27 2016 ceph-1/journal -> /dev/disk/by-partuuid/2ed74354-d0b5-4a15-aa7f-103f9ab6168e

lrwxrwxrwx 1 root root 58 Dec 27 2016 ceph-2/journal -> /dev/disk/by-partuuid/018f6fb7-b5db-4e81-b58b-f099bd4d631f

lrwxrwxrwx 1 root root 58 Dec 27 2016 ceph-5/journal -> /dev/disk/by-partuuid/ba910d2a-4454-4618-b4c0-d002675779db

lrwxrwxrwx 1 root root 58 Dec 27 2016 ceph-6/journal -> /dev/disk/by-partuuid/53631fd2-0895-4077-966d-d7a997eb7cdc

lrwxrwxrwx 1 root root 58 Dec 27 2016 ceph-9/journal -> /dev/disk/by-partuuid/2aeef55b-5e0b-4d8a-aa08-2f5dc906dc08

后续

=================================================================

31号下午2点，同步停止，但是还没有同步完，还是有7个pgs down
【查看哪些pg处于down+peering】【pgs down 是因为pg 的副本数少于2】【pg有2个副本就能提供服务，少于2就down】

ceph health detail【显示结果大量pg 1.1055状态是down+peering】

查看pg 1.1055信息

ceph pg 1.1055 query【查看peer是在哪个osd上】【peer下一行的blocked就有osd的编号】

查看osd

ceph daemon osd.87 status【查看osd状态】

启动osd

service ceph start osd.87

工程师启动了1个29号down掉的osd.87，osd.87启动后有6个pgs down的状态消失
1号

凌晨6点，同步停止，但是还没有同步完，还有1个pgs down

还有33 72 125 127 109 osd是29号down的没启动

ceph health detail【显示结果大量pg 4.a3状态是down+peering】

查看pg 4.a3信息

ceph pg 4.a3 query【查看不了】

最后

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Java工程师，想要提升技能，往往是自己摸索成长，自己不成体系的自学效果低效漫长且无助。

因此收集整理了一份《2024年Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Java开发知识点，不论你是刚入门Java开发的新手，还是希望在技术上不断提升的资深开发者，这些资料都将为你打开新的学习之门！

如果你觉得这些内容对你有帮助，需要这份全套学习资料的朋友可以戳我获取！！

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且会持续更新！
mg-lTtDUxj6-1715864699600)]

[外链图片转存中…(img-pKZ8hAZy-1715864699601)]

如果你觉得这些内容对你有帮助，需要这份全套学习资料的朋友可以戳我获取！！

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且会持续更新！

2401_84048554

关注

10
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
openstack的osd，up不起来原因【重建osd日志盘软连接方法】

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。深知大多数Java工程师，想要提升技能，往往是自己摸索成长，自己不成体系的自学效果低效漫长且无助。因此收集整理了一份《2024年Java开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。
复制链接

扫一扫