卡住了几个小时,死活停滞不前,发现后根据提示开始排错,进入50030,进入作业发现
这说明作业在map之完后的shuffle阶段中,reduce无法从map处拷贝数据,是因为客户端与数据节点通讯失败造成的。客户端程序应该能够和所有的节点通讯才能保证数据的传输正常,然后开始各种检查:所有节点hosts中写的完全相通,不是节点名称不同或者节点没有完全加上造成的,排除;找到slaves发现写的也完全相同,不是节点缺失有误,最后查看了防火墙的状态,发现其中一个节点的防火墙没有关闭,找到原因,service iptables stop,然后重新提交作业,成功运行