注意你的Ceph集群!~没有注意这一点你的集群可能会挂!

睡梦中刚好醒来,瞅了一眼群,发现群里已经炸开了锅,各个重要系统报来宕机的噩耗。 这一晚的大雪,挺有意思。。。


Q了下运维老朋友,说是遇到了个大坑,某几台机器时间走的飞快,基本是每十秒会多出1s的速度。


可不要小看这小小的时间加速,造成的影响是Ceph的集群某几个osd节点down掉,然后早就了开头那一幕。


原因就是因为时间不同步,Ceph节点健康检测应该是失败了(推测)


他的临时办法,只能强制30s 调用一次crontab ntpupdate ,ceph恢复。


这番描述感觉挺有意思,印象中一般配置了 ntp同步,基本不需要再去频繁的配置,麻利的穿好衣服,开始搜索与linux时间相关的 page.


搜索一番感觉除了一个闰秒之坑之外,没有别的地方可以入手,系统时间速度快肯定是时钟频率快了,但是什么导致的就不得而知了。


于是要了下有问题的机器和环境配置: RHEL 7 , 然后crontab 写了临时解决方法 是10s自动 调用ntpupdate 从B机器同步时间,


使用 watch -n 1 date 命令观察 date变化,发现时间明显要快速与别的正常机器。


此外 我们发现 B机器时间要慢于实际现实世界的时间大概10分钟左右

没有更多的信息了。


抱着试试看的态度,google 了 rhel linux time 相关文章:

https://acc

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值