[2014.12.08]
一个Job, Map跑了40分钟,Reduce挂了;fix bug, 重跑,Reduce又挂了,......,三个小时过去了,又再重跑,时间啊。。。。
以后,调试MR Job, 老老实实按以下方法:
(1)先本地单测通过,
(2)mapper 为自己的逻辑,然后 -reduce='cat';
(3)从hdfs上取一个reduce产出的part, 在本地 cat part|python reduce.py 测试通过
(4)上集群跑MR Job
转载于:https://www.cnblogs.com/basalt/p/4151619.html