单个节点的命名问题也会导致这个问题,具体解决办法:
http://blog.csdn.net/lxpbs8851/article/details/11820601
磁盘损坏的解决办法:
起因:
datanode的磁盘挂掉了2个
昨天的任务跑完了之后,检查了下dfsadmin -report
监测到集群之中有个节点的 Configured Capacity 比其它的节点少了差不多2个磁盘的容量;
然后去检查了下这个节点 发现确实有2个磁盘出了问题。
于是。重启 换磁盘 ,重新启动了节点。
然后在此节点上 执行了balancer
问题出现了:
早上到公司,发现 基本上所有的任务全部都hold了,平时只需要2分钟跑完的任务,一直堵在那边。
后台执行任务,发现了一个奇怪的现象,有些任务能够顺利的进行,而另外大部分的任务执行的时候 出现
map能达到100% 但是reduce基本上执行到30% 或者32% 的时候会卡住 等上半个小时也不会前进。
临时的解决办法:
查询了下 昨天新增的节点,由于最近才接触到这个集群,发现这个节点的数据已经有大半年没有更新了,意思就是死了大半年了、
于是果断的 干掉了这个节点。
重新执行 被堵住的任务,任务终于能够顺利的进行了。
更加详细的原因,还需要时间去查证。
原因找到了:
是因为这个datanode上面的多个磁盘都坏掉了。
处理过程: