Map端的Reduce - Combiner
作用
Map任务中会产生大量的数据, 在shuffle阶段, 这些数据通过网络传递到Reduce任务节点, Combiner的作用即通过在Map任务中输出的数据先进行一次合并, 减少网络中传输的数据量.
本质
Map端的Reduce, 是在每一个Mapper端都会运行, 其实, Combiner的父类正是Reducer.和Reduce任务不同的是运行位置.
使用
1, 创建自定义Combiner: 解决的是减少网络传输数据的目的, 那么用reduce的逻辑直接用作combiner即可
2, 在Job中设置Combiner: Job.setCombinerClass(XxxReducer.class);
观察效果的手段: 计数器
案例
需求: 单词计数
样例数据: 故意让一行中数据重复, 目的, 尽量让一个block中有重复的数据, 这样, 测试Combiner会在mapper任务中使用自定义的逻辑合并数据.
这里Combiner合并数据的逻辑直接使用的我们自定义的Reducer.
hadoop,hdfs,mapreduce,spark,hadoop,hdfs,mapreduce,spark
hive,impala,sparkSQL,kylin,hive,impala,sparkSQL,kylin
flume,kafka,flume,kafka
Mapper逻辑: 根据分隔符","拆分数据
Reducer逻辑: 单词计数
程序简单, 上面两个代码省略, 前面几篇博文中有类似, 可以翻看, 这里只介绍如何在Job中配置Combiner, 如下第(3)步中: 打开或者关闭注释做测试
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce