大数据知识专栏 - MapReduce的Combiner实现shuffle过程调优

本文介绍了MapReduce中Combiner的作用,如何在Hadoop Map任务中通过自定义逻辑减少数据传输,通过实例演示了在单词计数任务中使用Combiner的效果,对比了开启和关闭Combiner后的shuffle数据量变化,强调了在大数据场景下性能调优的价值。
摘要由CSDN通过智能技术生成

Map端的Reduce - Combiner

作用

​ Map任务中会产生大量的数据, 在shuffle阶段, 这些数据通过网络传递到Reduce任务节点, Combiner的作用即通过在Map任务中输出的数据先进行一次合并, 减少网络中传输的数据量.

本质

​ Map端的Reduce, 是在每一个Mapper端都会运行, 其实, Combiner的父类正是Reducer.和Reduce任务不同的是运行位置.

使用

​ 1, 创建自定义Combiner: 解决的是减少网络传输数据的目的, 那么用reduce的逻辑直接用作combiner即可

​ 2, 在Job中设置Combiner: Job.setCombinerClass(XxxReducer.class);

观察效果的手段: 计数器

案例

需求: 单词计数

样例数据: 故意让一行中数据重复, 目的, 尽量让一个block中有重复的数据, 这样, 测试Combiner会在mapper任务中使用自定义的逻辑合并数据.

​ 这里Combiner合并数据的逻辑直接使用的我们自定义的Reducer.

hadoop,hdfs,mapreduce,spark,hadoop,hdfs,mapreduce,spark
hive,impala,sparkSQL,kylin,hive,impala,sparkSQL,kylin
flume,kafka,flume,kafka

Mapper逻辑: 根据分隔符","拆分数据

Reducer逻辑: 单词计数

程序简单, 上面两个代码省略, 前面几篇博文中有类似, 可以翻看, 这里只介绍如何在Job中配置Combiner, 如下第(3)步中: 打开或者关闭注释做测试

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

能力工场小马哥

如果对您有帮助, 请打赏支持~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值