MapReduce详细过程刨析

最新推荐文章于 2023-10-19 16:00:54 发布

TT15751097576

最新推荐文章于 2023-10-19 16:00:54 发布

阅读量232

点赞数

文章标签： Map Reduce详细过程刨析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tt15751097576/article/details/100588718

版权

MapReduce是一种分布式计算框架，包含input、map、shuffle、reduce、output五个阶段。其中，shuffle过程最为关键，涉及分区、分组和排序。map端shuffle通过环形缓冲区进行溢写和排序，reduce端shuffle则负责拉取数据并合并。MapReduce的优化包括combiner，用于减轻reduce压力。整个流程适用于大规模数据处理，通过分而治之的策略简化复杂计算。

摘要由CSDN通过智能技术生成

MapRduce：就是一种分布式计算框架（一定数据按行算）

5个阶段：input ，map（里面由kv值，按照k值进行分区），shuffle（最难）， reduce（获取前面的v值进行分组），output

shuffle过程实现的功能

**分区：**决定当前的Key交给那个reduce进行处理

相同的key，必须由同一个reduce进行处理

默认：根据key的hash值对reduce个数取余

**分组：**将相同的key的value进行合并

key相等的话，将分到同一个组里

Map Reduce阶段，一行调用一次map方法，一种key调用一次reduce

**排序：**按照key的指导顺序进行排序

详细的过程（非常重要，Map Reduce优化，面试必考）

—》map端shuffle

—》spill：溢写

—》每一个map处理之后的结果将会进入环形缓冲区（内存：100MB）

—》分区：对每一条key和value进行分区（打标签）

hadoop 1 reduce0

hive 1

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。