openstack的osd,up不起来原因【重建osd日志盘软连接方法】

-12 43.67993 host stor11

87 5.45999 osd.87 down 0 1.00000

-15 43.67993 host stor14

109 5.45999 osd.109 down 0 1.00000

-17 43.67993 host stor16

125 5.45999 osd.125 down 0 1.00000

127 5.45999 osd.127 down 0 1.00000

-20 43.67993 host stor19

144 5.45999 osd.144 down 0 1.00000

146 5.45999 osd.146 down 0 1.00000

30号凌晨2点左右,ceph集群数据同步还差1.5%,但是已经不同步数据了。其中有7个pgs down

启动了25个down掉的osd,其中大部分osd是以前down的

单个osd up全过程【故障节点执行】

==================================================================================

查看ceph osd状态


service ceph status

lsblk查看日志软连接


一般会有一个盘会化很多分区用来分别存储每一个osd的日志,如这个就是sdg盘(有多少个osd就会有多少个分区)

[root@stor12 dev]# lsblk【列出所有可用块设备的信息,而且还能显示他们之间的依赖关系】

NAME MAJ:MIN RM SIZE RO TYPE MOUNTPOINT【其他硬盘单个做osd】

sda 8:0 0 5.5T 0 disk

└─sda1 8:1 0 5.5T 0 part /var/lib/ceph/osd/ceph-90

sdb 8:16 0 5.5T 0 disk

└─sdb1 8:17 0 5.5T 0 part /var/lib/ceph/osd/ceph-91

sdc 8:32 0 5.5T 0 disk

└─sdc1 8:33 0 5.5T 0 part /var/lib/ceph/osd/ceph-92

sdd 8:48 0 5.5T 0 disk

└─sdd1 8:49 0 5.5T 0 part /var/lib/ceph/osd/ceph-93

sde 8:64 0 5.5T 0 disk

└─sde1 8:65 0 5.5T 0 part /var/lib/ceph/osd/ceph-94

sdf 8:80 0 5.5T 0 disk

└─sdf1 8:81 0 5.5T 0 part /var/lib/ceph/osd/ceph-95

sdg 8:96 0 893.8G 0 disk 【2个固态硬盘做raid1,做日志的软连接存储目录】

├─sdg1 8:97 0 92.2G 0 part

├─sdg2 8:98 0 92.2G 0 part

├─sdg3 8:99 0 92.2G 0 part

├─sdg4 8:100 0 92.2G 0 part

├─sdg5 8:101 0 92.2G 0 part

├─sdg6 8:102 0 92.2G 0 part

├─sdg7 8:103 0 92.2G 0 part

└─sdg8 8:104 0 92.2G 0 part

sdh 8:112 0 5.5T 0 disk

└─sdh1 8:113 0 5.5T 0 part /var/lib/ceph/osd/ceph-88

sdi 8:128 0 5.5T 0 disk

└─sdi1 8:129 0 5.5T 0 part /var/lib/ceph/osd/ceph-89

sdj 8:144 0 5.5T 0 disk 【2个硬盘做raid1,安装系统】

├─sdj1 8:145 0 4M 0 part

├─sdj2 8:146 0 1G 0 part /boot

└─sdj3 8:147 0 582G 0 part

├─rhel_stor12-root 253:0 0 500G 0 lvm /

├─rhel_stor12-swap 253:1 0 32G 0 lvm [SWAP]

└─rhel_stor12-home 253:2 0 50G 0 lvm /home

查看软连接【定位问题】


查看ceph-osd的日志盘

cd /var/lib/ceph/osd【查看全部osd的软连接】

ls -l ceph-*/journal

下面就是每个osd对应的日志软连接,如果和lsblk的对应不上,则表示该服务器重启后软连接便了(盘符变了,比如sdg变成了sda),这时候就会导致启动osd的时候找到不到日志存储盘,所以osd无法up。

[root@stor03 osd]# cd /var/lib/ceph/osd/【进到日志目录】

[root@stor03 osd]# ls -l ceph-*/journal【查看所有软连接】

lrwxrwxrwx 1 root root 9 Dec 30 2019 ceph-16/journal -> /dev/sdg1

lrwxrwxrwx 1 root root 9 Dec 30 2019 ceph-17/journal -> /dev/sdg2

lrwxrwxrwx 1 root root 9 Dec 30 2019 ceph-18/journal -> /dev/sdg3

lrwxrwxrwx 1 root root 9 Dec 30 2019 ceph-19/journal -> /dev/sdg4

lrwxrwxrwx 1 root root 9 Dec 30 2019 ceph-20/journal -> /dev/sdg5

lrwxrwxrwx 1 root root 9 Dec 30 2019 ceph-21/journal -> /dev/sdg6

lrwxrwxrwx 1 root root 9 Dec 30 2019 ceph-22/journal -> /dev/sdg7

lrwxrwxrwx 1 root root 9 Dec 30 2019 ceph-23/journal -> /dev/sdg8

[root@stor03 osd]#

重建软连接【确定问题后】


比如发现软连接显示的磁盘目录和lsblk查看的结果不一致,进入到该osd目录,比如ceph-90不一致

cd /var/lib/ceph/osd/ceph-90/

ls -l【核实软连接和lsblk确实不一致】

rm -f journal【删除这个软连接】

ln -s /dev/sdg1 journal【重建这个软连接,以lsblk的为准】

注:上面重建软连接步骤,有多少个盘就重复多少次,比如上面有sdg1~sdg8就需要重复8次该操作。

up osd


service ceph status osd.90 【查看osd.90状态】

service ceph start osd.90【启动osd.90,也可以这样:/etc/init.d/ceph start osd.90

service ceph status【查看全部】

【在存储节点,查看osd.90对应的日志,查看osd是否正常】

cd /var/log/ceph

tail -f ceph-osd.90.log

出现going to standby正常

有time out的是osd down的时间节点

说明


有些软连接是使用的盘名称,所以会发生上述情况,如果使用的是uuid,则一般不会发生上述情况,uuid显示结果如下

[root@stor-3 ~]# cd /var/lib/ceph/osd

[root@stor-3 osd]# ls -l ceph-*/journal

lrwxrwxrwx 1 root root 58 Dec 27 2016 ceph-10/journal -> /dev/disk/by-partuuid/35534a97-7c23-4cd1-9f37-0557a21f1cf5

lrwxrwxrwx 1 root root 58 Dec 27 2016 ceph-13/journal -> /dev/disk/by-partuuid/fd9a7e66-d69e-4cd6-b955-1f65fbd348e4

lrwxrwxrwx 1 root root 58 Dec 27 2016 ceph-14/journal -> /dev/disk/by-partuuid/16d94f0a-92b0-4368-99d0-823d2a6fdd47

lrwxrwxrwx 1 root root 58 Dec 27 2016 ceph-17/journal -> /dev/disk/by-partuuid/0ac7bfe9-5311-4b93-8c1b-b3f512054021

lrwxrwxrwx 1 root root 58 Dec 27 2016 ceph-18/journal -> /dev/disk/by-partuuid/72893f30-0dd6-4183-850b-922b7789fb6a

lrwxrwxrwx 1 root root 58 Dec 27 2016 ceph-1/journal -> /dev/disk/by-partuuid/2ed74354-d0b5-4a15-aa7f-103f9ab6168e

lrwxrwxrwx 1 root root 58 Dec 27 2016 ceph-2/journal -> /dev/disk/by-partuuid/018f6fb7-b5db-4e81-b58b-f099bd4d631f

lrwxrwxrwx 1 root root 58 Dec 27 2016 ceph-5/journal -> /dev/disk/by-partuuid/ba910d2a-4454-4618-b4c0-d002675779db

lrwxrwxrwx 1 root root 58 Dec 27 2016 ceph-6/journal -> /dev/disk/by-partuuid/53631fd2-0895-4077-966d-d7a997eb7cdc

lrwxrwxrwx 1 root root 58 Dec 27 2016 ceph-9/journal -> /dev/disk/by-partuuid/2aeef55b-5e0b-4d8a-aa08-2f5dc906dc08

后续

=================================================================

  • 31号下午2点,同步停止,但是还没有同步完,还是有7个pgs down

  • 【查看哪些pg处于down+peering】【pgs down 是因为pg 的副本数少于2】【pg有2个副本就能提供服务,少于2就down】

ceph health detail【显示结果大量pg 1.1055状态是down+peering】

  • 查看pg 1.1055信息

ceph pg 1.1055 query【查看peer是在哪个osd上】【peer下一行的blocked就有osd的编号】

  • 查看osd

ceph daemon osd.87 status【查看osd状态】

  • 启动osd

service ceph start osd.87

  • 工程师启动了1个29号down掉的osd.87,osd.87启动后有6个pgs down的状态消失

  • 1号

凌晨6点,同步停止,但是还没有同步完,还有1个pgs down

还有33 72 125 127 109 osd是29号down的没启动

ceph health detail【显示结果大量pg 4.a3状态是down+peering】

  • 查看pg 4.a3信息

ceph pg 4.a3 query【查看不了】

最后

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Java工程师,想要提升技能,往往是自己摸索成长,自己不成体系的自学效果低效漫长且无助。

因此收集整理了一份《2024年Java开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,不论你是刚入门Java开发的新手,还是希望在技术上不断提升的资深开发者,这些资料都将为你打开新的学习之门!

如果你觉得这些内容对你有帮助,需要这份全套学习资料的朋友可以戳我获取!!

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!
mg-lTtDUxj6-1715864699600)]

[外链图片转存中…(img-pKZ8hAZy-1715864699601)]

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,不论你是刚入门Java开发的新手,还是希望在技术上不断提升的资深开发者,这些资料都将为你打开新的学习之门!

如果你觉得这些内容对你有帮助,需要这份全套学习资料的朋友可以戳我获取!!

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!

  • 10
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值