在做CPU密集型的MR任务时,有时会出现failed to report status for 600 seconds. killing的错误,分析了一下,是因为task长时间在跑任务,没有向jobtracker发送心跳包。 有以下方法可以改善这个问题。
1. 延长task超时时间
这种方法通过修改配置项mapred.task.timeout来延长超时时间。 默认是600000ms,可以根据任务的不同在相应job的configuration配置。 或者修改hadoop系统的配置文件更改全局配置。
在mapred-site.xml里面多加上
<property>
<name>mapred.task.timeout</name>
<value>600000</value><!--這是預設-->
</property>
更换这个属性,设置成0表示不限制。
conf.set("mapred.task.timeout","0");...結果是一樣的
2. 手动汇报
在task里可以定期调用org.apache.hadoop.mapreduce.TaskAttemptContext.progress()来向jobtracker发送心跳包,防止任务超时。