Hadoop学习日记(七)
2019.03.08
主题:wordcount编写和提交集群运行
这部分内容的学习主要参考段海涛Hadoop之p24
这部分的学习主要是编写了WCMapper、WCReducer、WCRunner三个类,以及最终打包成jar包提交集群运行。
一、关键点汇总
1. 在wordcount实例里,WCReducer中Reduce()方法数据输入的value其实是一个list
2.FileInputFormat以及FileOutputFormat应从包org.apache.hadoop.mapreduce.lib.input和org.apache.hadoop.mapreduce.lib.output中导入,Hadoop老的接口不要使用
3. 最终wordcount实例运行的结果如下图所示,可以看到结果按照key进行排序
4. 另外还有一些注意点标注在源码的注释里。
二、源码
1.WCMapper
package weekend1