睡梦中刚好醒来,瞅了一眼群,发现群里已经炸开了锅,各个重要系统报来宕机的噩耗。 这一晚的大雪,挺有意思。。。
Q了下运维老朋友,说是遇到了个大坑,某几台机器时间走的飞快,基本是每十秒会多出1s的速度。
可不要小看这小小的时间加速,造成的影响是Ceph的集群某几个osd节点down掉,然后早就了开头那一幕。
原因就是因为时间不同步,Ceph节点健康检测应该是失败了(推测)
他的临时办法,只能强制30s 调用一次crontab ntpupdate ,ceph恢复。
这番描述感觉挺有意思,印象中一般配置了 ntp同步,基本不需要再去频繁的配置,麻利的穿好衣服,开始搜索与linux时间相关的 page.
搜索一番感觉除了一个闰秒之坑之外,没有别的地方可以入手,系统时间速度快肯定是时钟频率快了,但是什么导致的就不得而知了。
于是要了下有问题的机器和环境配置: RHEL 7 , 然后crontab 写了临时解决方法 是10s自动 调用ntpupdate 从B机器同步时间,
使用 watch -n 1 date 命令观察 date变化,发现时间明显要快速与别的正常机器。
此外 我们发现 B机器时间要慢于实际现实世界的时间大概10分钟左右
没有更多的信息了。
抱着试试看的态度,google 了 rhel linux time 相关文章:
https://acc