故障现场:Hadoop集群某台机器cpu、内存均占用100%,其中cpu的sys_cpu指标非常高;最高峰达到100%,根据当时捕捉的现场TOP出来的数据可以看到,datanode进程占用cpu1124%。
故障分析:通过排查datanode log,namenode log,均未发现有什么异常。但在排查过程中,看到有某司遇到过类似问题,由于没有捕捉当时的datanode的jstack,所以暂时没有论证是否是一个问题,但是排查重心转移到了“大页内存”相关的问题上
参考文献:http://www.ghostar.org/2015/02/transparent-huge-pages-on-hadoop-makes-me-sad/