MapReduce详细过程刨析

最新推荐文章于 2023-03-07 08:28:08 发布

TT15751097576

最新推荐文章于 2023-03-07 08:28:08 发布

阅读量212

点赞数

文章标签： Map Reduce详细过程刨析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TT15751097576/article/details/100588718

版权

MapRduce：就是一种分布式计算框架（一定数据按行算）

5个阶段：input ，map（里面由kv值，按照k值进行分区），shuffle（最难）， reduce（获取前面的v值进行分组），output

shuffle过程实现的功能

**分区：**决定当前的Key交给那个reduce进行处理

相同的key，必须由同一个reduce进行处理

默认：根据key的hash值对reduce个数取余

**分组：**将相同的key的value进行合并

key相等的话，将分到同一个组里

Map Reduce阶段，一行调用一次map方法，一种key调用一次reduce

**排序：**按照key的指导顺序进行排序

详细的过程（非常重要，Map Reduce优化，面试必考）

—》map端shuffle

—》spill：溢写

—》每一个map处理之后的结果将会进入环形缓冲区（内存：100MB）

—》分区：对每一条key和value进行分区（打标签）

hadoop 1 reduce0

hive 1 reduce1

spark 1 reduce1

hbase 1 reduce1

Hadoop 1 reduce0

—》排序：将相同分区的数据进行分区排序

hadoop 1 reduce0

Hadoop 1 reduce0

hbase 1 reduce1

hive 1 reduce1

spark 1 reduce1

—》当环形缓冲区达到阈值80%，开始溢写，将分区排序后的数据溢写到磁盘变成filel</

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce详细过程刨析

MapRduce：就是一种分布式计算框架（一定数据按行算）5个阶段：input ，map（里面由kv值，按照k值进行分区），shuffle（最难）， reduce（获取前面的v值进行分组），outputshuffle过程实现的功能**分区：**决定当前的Key交给那个reduce进行处理相同的key，必须由同一个reduce进行处理默认：根据key的has...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。