Shuffle的作用以及MapReduce的Shuffle过程

最新推荐文章于 2024-08-21 21:23:39 发布

Kazi_1024

最新推荐文章于 2024-08-21 21:23:39 发布

阅读量1.9k

点赞数

分类专栏： Hadoop 文章标签： mapreduce 大数据 hadoop

本文链接：https://blog.csdn.net/weixin_42322454/article/details/128400205

版权

Shuffle的设计

为什么需要Shuffle？

Shuffle的本质是基于磁盘划分来解决分布式大数据量的全局分组、全局排序、重新分区【增大】 等问题

因为单台机器的资源处理不了分布式大数据量全局分区/排序/分组

所以需要通过Shuffle对每一台机器的数据构建一个Task来做分区的标记（通过Hash或Ranger分区器）这样所有的数据被标记后就可以根据标记进入指定分区，实现全局分区/分组/排序功能

举例说明

假设有一个HDFS文件，分成三个Block块，每台机器上有一个Block
 node1-Block1：（a,1）（c,9）（c,6）（d,3）
 node2-Block2：（b,4）（a,8）（d,2）
 node3-Block3：（b,7）（d,5）

需求：在分布式大数据量计算过程中，需要对所有数据进行全局分组 / 全局排序 / 重新分配

全局分组：相同单词的放在一组

node1-Block1：（a, [1,8]）（c, [9,6]）
node

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Kazi_1024

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

深度学习：shuffle 的作用

南淮北安的博客

11-02

7542

shuffle 就是为了避免数据投入的顺序对网络训练造成影响。增加随机性，提高网络的泛化性能，避免因为有规律的数据出现，导致权重更新时的梯度过于极端，避免最终模型过拟合或欠拟合。因为按照某些顺序投入容易在训练中走偏或陷入局部最优使得训练效果出现差异，尤其是当 batch size 比较小的时候。 ...

MapReduce shuffle过程详解！

蔡政洁的博客

10-12

9324

目录一、MR的shuffle过程二、Map shuffle三、Reduce shuffle 一、MR的shuffle过程 MR的shuffle过程： input -> map -> shuffle -> reduce ->output MR的原理图：二、Map shuffle 1.map()的数据会写入到内存（环形缓冲区：默认大小：100mb），当数据达到缓冲区总容量的80%（阈值）时，会将我们的数据spill到本地磁盘 1）分区（partitioner）：分

2 条评论您还未登录，请先登录后发表或查看评论

Shuffle的过程作用详解

qq_40595055的博客

04-12

3497

shuffle shuffle过程中的几个名词：shuffle：洗牌；spill：溢出；combiner：合成；merge：融入混合；copy:复制 shuffle的使用地点：发生在map task输出结果传送到reduce task 输入的阶段使用shuffle的好处：在从map task端拉取数据到reduce task端时，减少宽带的消耗，将数据完整的从map task端拉取数据到re...

Hadoop MapReduce Shuffle 详解

leehsiao的专栏

01-17

2183

一、什么是Shuffle机制在MapReduce中，shuffle更像是洗牌的逆过程，指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据，以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到reduce接收前，具体可以分为map端和reduce端前后两个部分。在shuffle之前，也就是在map阶段，MapReduce会对要处理的数...

机器学习，深度学习模型训练阶段的Shuffle重要么？为什么？

最新发布

技术博客

08-21

692

当整个map任务完成溢出写后，会对磁盘中这个map任务产生的所有临时文件（spill文件）进行归并（merge）操作生成最终的正式输出文件，此时的归并是将所有spill文件中的相同partition合并到一起，并对各个partition中的数据再进行一次排序（sort），生成key和对应的value-list，文件归并时，如果溢写文件数量超过参数min.num.spills.for.combine的值（默认为3）时，可以再次进行合并。这次排序是将局部有序的数据整理成整体有序的状态，所以采用的是归并排序。

MapReduce中的shuffle

zz06251998的博客

09-03

976

霞给的烈酒，给的温柔，最后的最后，不过是一场梦~ shuffle的定义简单来说可以是洗牌，可以理解为一种让数据重新分布以使得某些数据被放在同一分区里的一种机制。Shuffle的过程中，存在着大量的网络消耗传输数据，会在磁盘上产生大量的中间文件。在MapReduce中的shuffle分为map端与reducer端，以下是对shuffle的一些详述： Map端的Shuffle Map的输出结果首先被缓存到内存，当缓存区（环状缓冲区）达到80% （默认大小为100MB），就会启动溢写操作，当前启动..

MapReduce的Shuffle和Spark的Shuffle过程对比

u012137473的博客

12-25

4176

MapReduce的Shuffle和Spark的Shuffle过程对比MapReduce MapReduce MapReduce计算模型分为map和reduce两个重要阶段，map是映射，负责数据的过滤分发。reduce是规约，负责数据的计算归并，map将数据传递给reduce，reduce需要通过shuffle来读取数据。map输出到reduce的输入广义的称之为Shuffle。Shuffle横...

浅显易懂的来讲解Mapreduce-shuffle原理

宇的博客

12-25

1166

浅显易懂的讲解mapreduce的shuffle

MapReduce灵魂——看不见的Shuffle

机器熊的技术大杂烩

04-08

508

1.Shuffle概述 1.1 shuffle本意《柯林斯英汉双解大词典》的shuffle愿意为==“洗牌”==。 shuffle：rearrange (a deck of cards) by sliding the cards over each other quickly. shuffle：洗牌同义词：mix（混合）；mixup（混淆；拌和；调和） ——《柯林斯英汉双解大词典》 1.2...

mapreduce shuffle

横行的螃蟹的博客

04-06

243

一、 Map端shuffle 输入数据和执行Map任务通过自定义Map，将输入<key,value>转换成新的<key,value>并输出写入缓存每个map任务都会分配一个缓存区（通过环形队列实现），默认100M，首先将map的输出写入缓存，当达到一定数量是会一次性批量写入磁盘，以减少磁盘IO操作溢写（分区，排序，和并）因为缓存区大小有限，为不影Map结果的写...

MapReduce中partition、shuffle、combiner的作用与关系介绍

YYDU_666的博客

03-06

2392

【MR】MapReduce中shuffle、partition、combiner的作用与关系一，shuffle(一)对shuffle的理解shuffle的正常意思是洗牌或弄乱。它只代表reduce task获取map task的输出的过程，也可以理解为从map输出到reduce输入的整个过程。shuffle是MR的核心，也有把它称为奇迹发生的地方。这样MR的过程可以简化为下图(二)为什么需要s...

MapReduce中Shuffle机制详解——Map端Shuffle

雾幻的博客

04-11

6295

MapReduce之shuffle详解

qq_42214376的博客

01-27

547

shuffle 是 Mapreduce 的核心，它分布在 Mapreduce 的 map 阶段和 reduce 阶段。一般把从 Map 产生输出开始到 Reduce 取得数据作为输入之前的过程称作 shuffle。 1. Collect阶段：将 MapTask 的结果输出到默认大小为 100M 的环形缓冲区，保存的是 key/value，Partition 分区信息等。 2. Spill...

MapReduce Shuffle

qq_43719634的博客

09-27

455

Shuffle简介 Shuffle的本意是洗牌、混洗的意思，把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中，Shuffle更像是洗牌的逆过程，指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据，以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到reduce接收前，具体可以分为map端和reduce端前后两个部分。在Shuffl...

MapReduce中combine、partition、shuffle的作用是什么

weixin_34278190的博客

06-20

156

http://www.aboutyun.com/thread-8927-1-1.html Mapreduce在hadoop中是一个比較难以的概念。以下须要用心看，然后自己就能总结出来了。概括： combine和partition都是函数。中间的步骤应该仅仅有shuffle！ 1.combine combine分为map端和reduce端，作用是把...

关于Map端的Shuffle过程与Reduce 端的Shuffle过程

weixin_45558363的博客

05-10

8133

在Map端的Shuffle过程： Map的输出结果首先被写入缓存，当缓存满时，就启动溢写操作，把缓存中的数据写入磁盘文件，并清空缓存。当启动溢写操作时，首先需要把缓存中的数据进行分区，然后对每个分区的数据进行排序和合并，之后再写入磁盘文件。每次溢写操作会生成一个新的磁盘文件，随着Map任务的执行，磁盘中就会生成多个溢写文件。在Map任务全部结束之前，这些溢写文件会被归并成一个大的磁盘文件，然后通知相应的Reduce任务来领取属于自己处理的数据。 Map端Suffer过程包括四个步骤：（1）输入数据和执

MapReduce深入解析：Shuffle过程揭秘

Shuffle这个词源于扑克牌游戏中的洗牌，但在MapReduce中，它指的是对数据进行排序、分区以及归并的过程，确保正确的键值对被传递到相应的Reduce任务。在Map阶段，每个Mapper处理输入数据并生成一系列键值对。这些...