大数据知识专栏 - MapReduce的Combiner实现shuffle过程调优

最新推荐文章于 2024-02-29 17:06:46 发布

能力工场小马哥

最新推荐文章于 2024-02-29 17:06:46 发布

阅读量292

点赞数

分类专栏： Hadoop 大数据文章标签： hadoop mapreduce 大数据

本文链接：https://blog.csdn.net/nengliweb/article/details/112912771

版权

本文介绍了MapReduce中Combiner的作用，如何在Hadoop Map任务中通过自定义逻辑减少数据传输，通过实例演示了在单词计数任务中使用Combiner的效果，对比了开启和关闭Combiner后的shuffle数据量变化，强调了在大数据场景下性能调优的价值。

摘要由CSDN通过智能技术生成

Map端的Reduce - Combiner

作用

Map任务中会产生大量的数据, 在shuffle阶段, 这些数据通过网络传递到Reduce任务节点, Combiner的作用即通过在Map任务中输出的数据先进行一次合并, 减少网络中传输的数据量.

本质

Map端的Reduce, 是在每一个Mapper端都会运行, 其实, Combiner的父类正是Reducer.和Reduce任务不同的是运行位置.

使用

1, 创建自定义Combiner: 解决的是减少网络传输数据的目的, 那么用reduce的逻辑直接用作combiner即可

2, 在Job中设置Combiner: Job.setCombinerClass(XxxReducer.class);

观察效果的手段: 计数器

案例

需求: 单词计数

样例数据: 故意让一行中数据重复, 目的, 尽量让一个block中有重复的数据, 这样, 测试Combiner会在mapper任务中使用自定义的逻辑合并数据.

这里Combiner合并数据的逻辑直接使用的我们自定义的Reducer.

hadoop,hdfs,mapreduce,spark,hadoop,hdfs,mapreduce,spark
hive,impala,sparkSQL,kylin,hive,impala,sparkSQL,kylin
flume,kafka,flume,kafka

Mapper逻辑: 根据分隔符","拆分数据

Reducer逻辑: 单词计数

程序简单, 上面两个代码省略, 前面几篇博文中有类似, 可以翻看, 这里只介绍如何在Job中配置Combiner, 如下第(3)步中: 打开或者关闭注释做测试

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce