前言
记录一次ceph集群线上问题,是osd的问题,时间比较久远了,过程已经记不清了,只记录了最终确认问题的方式
一、问题
甲方维护同事联系说一个节点上的osd服务怎么都启动不起来,检查不是硬盘的问题
二、处理步骤
1.询问集群是否有变动,查看osd日志
集群没有操作,osd异常是一下出现的,没有什么征兆。
2.使用MD5校验osd的二进制文件
经过校验发现,这台节点上的osd服务二进制虽然大小和其他节点一致,但是md5值不同。
拷贝其他节点上的osd二进制文件到当前节点,重启osd服务。服务恢复正常
总结
稀奇古怪的问题很多,查找问题的时候可以发散思维,从各个角度来寻找线索