此问题最早在13年左右发现,故障重现必须有个前提就是服务器需要连续跑半年或一年以上才会有机会遇到,不是每台机器必现,早期的BIOS版本为1.x 系列,原以为升级相关固件后问题会得到解决,但最近发现在BIOS 2.4.3 的机器跑了500多天的机器重启也会遇到。
系统平台
操作系统 CentOS 6.4 - 6.7 64位
系统平台 12G DELL R620 R720 系列
问题描述
服务器连续运行半年或一年以上,因系统补丁更新,在对服务器进行重启后会有一定概率出现系统响应迟钝,命令执行缓慢(需要等几秒甚至更久才有响应),系统服务请求超时,CPU使用率100%,进程占用大量CPU,系统LOAD值异常的情况,此时机器已无法正常对外提供服务,给人感觉似乎就是WIN7系统跑在老旧的486、586 PC上一样,不知是否和硬件电源管理,CPU降频有联系。这时候如果再对服务器进行重启,问题会依旧产生,只有将服务器关机,拔掉电源线,重新通电开机,或通过idrac控制关机后再开机才会恢复到正常的状态。