mapreduce工作流程

有智青年i

于 2023-10-19 16:00:54 发布

阅读量141

点赞数 1

分类专栏： Hadoop 文章标签： mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_64622390/article/details/133928687

版权

Hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一.流程示意图

MapReduce可以分成Map和Reduce两部分理解。

1.Map：映射过程，把一组数据按照某种Map函数映射成新的数据。我们将这句话拆分提炼出重要信息，也就是说，map主要是：映射、变换、过滤的过程。一条数据进入map会被处理成多条数据，也就是1进N出。
2.Reduce：归纳过程，把若干组映射结果进行汇总并输出。我们同样将重要信息提炼，得到reduce主要是：分解、缩小、归纳的过程。一组数据进入reduce会被归纳为一组数据（或者多组数据），也就是一组进N出。
3.mapreduce：将map过程和reduce过程连接起来

二.流程详解

1.分片、格式化数据源

输入 Map 阶段的数据源，必须经过分片和格式化操作。
分片操作：指的是将源文件划分为大小相等的小数据块( Hadoop 2.x 中默认 128MB )，也就是分片( split )， Hadoop 会为每一个分片构建一个 Map 任务，并由该任务运行自定义的 map() 函数，从而处理分片里的每一条记录;
格式化操作：将划分好的分片( split )格式化为键值对<key,value>形式的数据，其中， key 代表偏移量， value 代表每一行内容。

2.执行 MapTask

每个 Map 任务都有一个内存缓冲区(缓冲区大小 100MB )，输入的分片( split )数据经过 Map 任务处理后的中间结果会写入内存缓冲区中。
如果写人的数据达到内存缓冲的阈值( 80MB )，会启动一个线程将内存中的溢出数据写入磁盘，同时不影响 Map 中间结果继续写入缓冲区。
在溢写过程中， MapReduce 框架会对 key 进行排序，如果中间结果比较大，会形成多个溢写文件，最后的缓冲区数据也会全部溢写入磁盘形成一个溢写文件，如果是多个溢写文件，则最后合并所有的溢写文件为一个文件。

3.执行 Shuffle 过程

MapReduce 工作过程中， Map 阶段处理的数据如何传递给 Reduce 阶段，这是 MapReduce 框架中关键的一个过程，这个过程叫作 Shuffle 。
Shuffle 会将 MapTask 输出的处理结果数据分发给 ReduceTask ，并在分发的过程中，对数据按 key 进行分区和排序。

4.执行 ReduceTask

输入 ReduceTask 的数据流是<key, {value list}>形式，用户可以自定义 reduce()方法进行逻辑处理，最终以<key, value>的形式输出。
写入文件 MapReduce 框架会自动把 ReduceTask 生成的<key, value>传入 OutputFormat 的 write 方法，实现文件的写入操作。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

有智青年i CSDN认证博客专家 CSDN认证企业博客

码龄3年

22: 原创

136万+: 周排名

35万+: 总排名

5622: 访问

: 等级

318: 积分

68: 粉丝

97: 获赞

18: 评论

13: 收藏

私信

关注

热门文章

分类专栏

MySQL 15篇
python 2篇
Hadoop 2篇
Linux 1篇

最新评论

mysql疯狂练习——04
CSDN-Ada助手: 恭喜博主成功发布了第20篇博客！“mysql疯狂练习——04”这个标题非常吸引人，我很期待阅读您的文章。您一直以来都展现出对mysql的深入研究和不断学习的态度，让人佩服不已。希望您能继续保持这样的创作热情，为我们带来更多有关mysql的精彩内容。同时，我想提供一个谦虚的建议，或许您可以考虑拓展一下主题，例如深入研究mysql的高级功能或分享一些实际应用案例等。期待您的下一篇博客，加油！
mysql疯狂练习——03
CSDN-Ada助手: 恭喜您撰写了第19篇博客！标题“mysql疯狂练习——03”让我感到充满期待。您的持续创作真是令人钦佩，对于MySQL这一主题的不断深入探索，我深感敬佩。不过，我愿谦虚地提出下一步的创作建议：或许您可以考虑添加一些实例和案例分析，以帮助读者更好地理解和应用MySQL的知识。期待您的下一篇作品，加油！
mysql疯狂练习——02
CSDN-Ada助手: 恭喜你写完了第18篇博客！标题中的"疯狂练习"让我想象到了你在MySQL学习路上的不懈努力。你的持续创作让我感到非常佩服，同时也让我对你的技术水平充满期待。在下一步的创作中，我建议你可以尝试更深入地探索MySQL的高级特性，比如性能优化、复制和故障恢复等方面，这将进一步丰富你的知识储备。谦虚地说，我相信你一定能够继续在MySQL领域中取得更大的突破！加油！
python练习题
CSDN-Ada助手: 恭喜你写完了第16篇博客！看到你持续创作，真是令人敬佩。通过解答练习题，你不仅提高了自己的Python技能，也给读者们提供了很好的学习资源。接下来，如果你愿意的话，可以考虑分享一些实际项目中遇到的挑战以及你是如何应对的。这样不仅能够帮助读者更好地理解Python编程在实践中的应用，也能够进一步提升你自己的编程能力。期待你的下一篇博客！
python基础语法
CSDN-Ada助手: 恭喜您写了第9篇博客！标题为“python基础语法”，这是一个非常重要的主题，尤其对于初学者来说。通过讲解Python的基础语法，您帮助了很多人打下了坚实的编程基础。不过，我想提个建议，下一步您可以考虑扩展主题，介绍一些高级的Python语法和技巧，如函数式编程、装饰器等。这样可以帮助读者更深入地理解Python，并进一步提升他们的编程能力。期待您的下一篇博客！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。