在6.0.8 Debian服务器(HP ProLiant)冷启动后,ntpd对系统时间造成了严重破坏:相对于通常可靠的参考时间服务器的偏移和抖动不受限制地增长. (请注意,一个双相同的服务器完全没有问题.)在ntpd端修复问题的许多尝试失败之后,我决定尝试重启,一切顺利.
为了调查这个问题,我发现了这种差异,这可以解释我的时钟问题:
root@n1:~# zgrep Detected /var/log/dmesg*
/var/log/dmesg:[ 0.004000] Detected 2400.110 MHz processor.
/var/log/dmesg.0:[ 0.004000] Detected 2383.579 MHz processor.
/var/log/dmesg.1.gz:[ 0.004000] Detected 2400.036 MHz processor.
/var/log/dmesg.2.gz:[ 0.004000] Detected 2400.298 MHz processor.
/var/log/dmesg.3.gz:[ 0.004000] Detected 2400.165 MHz processor.
/var/log/dmesg.4.gz:[ 0.004000] Detected 2400.410 MHz processor.
请注意,在最后一次引导(有问题的引导)中,检测到的cpu频率是一个明确的异常值.在没有异常值的情况下,检测到的频率相对于标称频率的误差和标准偏差是0.15MHz±0.25MHz.对于有问题的启动,我的误差为-16.4 Mhz,大约是预期的100倍.
我的问题:
>这种类型的错误会导致ntp时间规则不稳定/无法使用吗?这是我时钟问题的原因吗?
>这种行为是否是硬件硬件的症状?服务器应该进行hw维护吗?
更新
一些有用的数据:
>内核是2.6.32-5-amd64(Debian 2.6.32-48squeeze4)
> current_clocksource是tsc
> lpj的错误(当然)与cpu频率上的错误一致
上面grep的一些上下文行
[ 0.000000] hpet clockevent registered
[ 0.000000] Fast TSC calibration using PIT
[ 0.004000] Detected 2400.110 MHz processor.
[ 0.000008] Calibrating delay loop (skipped),value calculated using timer frequency.. 4800.22 BogoMIPS (lpj=9600440)