现象:
这两天接到同事的咨询,说我维护的机器的CPU IDLE高,导致他的程序无法使用CPU,程序hang住。这个问题从未遇到过,记录下自己的处理过程。
排查:
1、使用top指令看,一段时间后,idle急剧下降,昨天还是十几,今天就是0了。开始以为是同事告知的原因,确实有个日志记录频繁,一天会有超过6G的记录;
开始基本断定是这个问题,并想找同事修改代码了。
2、但今天详细搜索了下,查询IO有个指令:iostat -d -x,看磁盘读写情况,我详细查了下各项的意义,有一项await-表示IO响应时间。一看,按网上讲是最大10,但是很多都超过100.
3、不放心,再对比了下其他服务器(业务相同),发现其他节点并没有这个问题,所以联系硬件的同事做了处理,恢复。
总结:
1、轻易不要下结论,特别是底层的问题;
2、查询过程中,多对比,一点点差别,很可能就能定位到问题
借鉴:
http://www.orczhou.com/index.php/2010/03/iostat-detail/
http://blog.sina.com.cn/s/blog_6cf467320100m2t4.html