MapReduce Shuffle机制及其Partition分区

最新推荐文章于 2023-12-28 20:34:51 发布

落花雨时

最新推荐文章于 2023-12-28 20:34:51 发布

阅读量443

点赞数

分类专栏：大数据文章标签：大数据 java hadoop mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mengxianglong123/article/details/119441055

版权

大数据专栏收录该内容

107 篇文章 52 订阅

订阅专栏

一、Shuffle机制

在这里插入图片描述

Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle。
在这里插入图片描述

二、Partition分区

1、问题引出

要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机归属地不同省份输出到不同文件中(分区)

2、默认Partitioner分区

在这里插入图片描述

默认分区是根据key的hashCode对Reduce Tasks个数取模得到的。用户没法控制哪个key存储到哪个分区。

3、自定义Partitioner步骤

(1) 自定义类继承Partitioner, 重写getPartition()方法
在这里插入图片描述
(2) 在Job驱动中,设置自定义Paritioner

job.setPartitionerClass(CustomPartitioner.class);

(3)自定义Partition后, 要根据自定义Partitioner的逻辑设置相应数量的ReduceTask

job.setNumReduceTasks(5);

4、分区总结

(1) 如果Reduce Task的数量 > getPartition的结果数,则会多产生几个空的输出文件part-r-000xx;

(2) 如果1 < ReduceTask的数量 < getPartition的结果数, 则有一部分分区数据无处安放, 会Exception;

(3) 如果ReduceTask的数量 = 1, 则不管MapTask端输出多少个分区文件,最终结果都交给这一个Reduce Task,最终也就只会产生一个结果文件 par-00000;

(4) 分区号必须从零开始,逐一累加。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce Shuffle机制及其Partition分区

一、Shuffle机制Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle。二、Partition分区1、问题引出要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机归属地不同省份输出到不同文件中(分区)2、默认Partitioner分区默认分区是根据key的hashCode对Reduce Tasks个数取模得到的。用户没法控制哪个key存储到哪个分区。3、自定义Partitioner步骤(1) 自定义类继承Partitioner, 重写get
复制链接

扫一扫

专栏目录

博客等级

码龄6年

607
原创

782
点赞

5487
收藏

721
粉丝

关注

私信

热门文章

分类专栏

面经 1篇
人工智能 52篇
图像处理 7篇
大数据 107篇
Scala 15篇
大前端 88篇
ACM 54篇
JavaSE 77篇
数据库 27篇
JavaEE 24篇
Java高级框架 56篇
Linux 17篇
Java互联网架构 25篇
Python基础 44篇
Python爬虫 13篇
Java微服务架构 17篇

最新评论

机器学习基础 HMM模型（隐马尔科夫）
cts618: HMM模型
Pytorch深度学习基础实战天气图片识别（基于ResNet50预训练模型，超详细）
FranklinLeeYF: 加一个余弦学习率可以更快收敛[code=python] [/scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=Train.epochs)] 40轮可以在验证集上达到0.82，80轮接近0.83，基本不会再提升了。
深度学习 TensorFlow入门
浅韵低吟Sempre: tensorflow和yolo哪个好？
Spring Security整合JWT实现前后端分离认证和权限管理（超详细）
SOMECT: [code=java] @Override public Authentication attemptAuthentication(HttpServletRequest request, HttpServletResponse response) throws AuthenticationException { if (this.postOnly && !request.getMethod().equals("POST")) { throw new AuthenticationServiceException("Authentication method not supported: " + request.getMethod()); } String username = obtainUsername(request); username = (username != null) ? username.trim() : ""; String password = obtainPassword(request); password = (password != null) ? password : ""; UsernamePasswordAuthenticationToken authRequest = UsernamePasswordAuthenticationToken.unauthenticated(username, password); // Allow subclasses to set the "details" property setDetails(request, authRequest); return this.getAuthenticationManager().authenticate(authRequest); } [/code]
Spring Security整合JWT实现前后端分离认证和权限管理（超详细）
收费界的一股清流: 你好大佬我比较笨有没有视频教学

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。