注意你的Ceph集群!~没有注意这一点你的集群可能会挂！

最新推荐文章于 2024-09-02 16:51:25 发布

itest_2016

最新推荐文章于 2024-09-02 16:51:25 发布

阅读量3.6k

点赞数 1

分类专栏：测试开发

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/itest_2016/article/details/79197939

版权

睡梦中刚好醒来,瞅了一眼群,发现群里已经炸开了锅,各个重要系统报来宕机的噩耗。这一晚的大雪，挺有意思。。。

Q了下运维老朋友,说是遇到了个大坑,某几台机器时间走的飞快，基本是每十秒会多出1s的速度。

可不要小看这小小的时间加速,造成的影响是Ceph的集群某几个osd节点down掉,然后早就了开头那一幕。

原因就是因为时间不同步,Ceph节点健康检测应该是失败了(推测)

他的临时办法,只能强制30s 调用一次crontab ntpupdate ,ceph恢复。

这番描述感觉挺有意思，印象中一般配置了 ntp同步，基本不需要再去频繁的配置，麻利的穿好衣服，开始搜索与linux时间相关的 page.

搜索一番感觉除了一个闰秒之坑之外，没有别的地方可以入手,系统时间速度快肯定是时钟频率快了，但是什么导致的就不得而知了。

于是要了下有问题的机器和环境配置: RHEL 7 , 然后crontab 写了临时解决方法是10s自动调用ntpupdate 从B机器同步时间，

使用 watch -n 1 date 命令观察 date变化,发现时间明显要快速与别的正常机器。

此外我们发现 B机器时间要慢于实际现实世界的时间大概10分钟左右

没有更多的信息了。

抱着试试看的态度，google 了 rhel linux time 相关文章：

https://acc

最低0.47元/天解锁文章

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。