hadoop的使用记录,
我在测试一部分数据,测试过程中,想ls出来看看,这样难免会修改job的outputformat,我在测一个工作任务,结果呢,我改了reducer的输出格式,也改了job的设置,可还是出错。开始不明白啊,我这个大粗人啊。
今天看job的设置,突然看到了,里面有combine的设置,唉,一想combine是在reduce前,同时其输出也是reduce的输入,我明白了。job里设置的reducer类也是combine,这就是为什么老出错了。
所以说,如果你想让你的reducer类也作为combine,你要保证你的combine输出和你的reducer输入是一样啊,也就是reducer的输入和输出要一致才行啊。
自己很少使用combine,唉,也没想过那么多。