转自:http://snv.iteye.com/blog/1879983
Hadoop执行Job时因超时自动kill,信息如下:
- Task attempt_201305231045_3281_m_000003_0 failed to report status for 600 seconds. Killing!
原因:
1.执行MR的时间过长,超过了mapred.task.timeout 中设置的值
2.MR执行中因业务比较复杂,没有report status从而使得master感觉不到此task的存在而kill
解决方案:
方案1:修改mapred-site.xml:
- <property>
- <name>mapred.task.timeout</name>
- <value>600000</value><!--默认为600S-->可以改的更长!
- </property>
方案2:根据业务需要手动set值:
- conf.setLong("mapred.task.timeout", 900000L);
但在hadoop0.20.2中貌似最大值限制:36,000,000 ms,顾采用方案3比较可靠
方案3:定时report status
在Mapper或者Reducer的时候,执行复杂的业务操作的时候report status
- context.progress();