Hadoop渐进四：MapRaduce流程简述

最新推荐文章于 2023-10-18 11:15:43 发布

KirogiYi

最新推荐文章于 2023-10-18 11:15:43 发布

阅读量982

点赞数

分类专栏： Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CDUT100/article/details/70989950

版权

Hadoop 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

一、MapRaduce介绍

MapReduce是一种编程模型，具有在多节点上并行处理大数据的能力。MapReduce算法包含两个重要的事务，分别是Map和Reduce：

1、Map：把大量复杂任务分解成多个少量简单任务；

2、Reduce：将多个少量任务结果进行归类汇总。

二、Map/Reduce步骤

1、Map：负责数据的过滤分发

(1)、Splitting：从数据源(HDFS的数据块)获取数据集，随后分解成更小的子数据集

(2)、Mapping：在子数据集上进行必要的数据处理(包括spill、sort等)

注：每个map task都有一个存储map输出结果的内存缓冲区，当缓冲区快满的时候需要将缓冲区数据临时存储在磁盘上(不是HDFS)，这里从内存写数据到磁盘的操作就是(溢写：spill),在map task任务结束后再对磁盘中的多个溢写数据文件整合到一个溢写文件中，然后等待分配reduce task后拉取这些输出数据。

2、Shuffle：Shuffle是MapReduce的核心

(1)、Copying：map task任务结束后,使用http请求拉取map阶段生成的输出文件。

(1)、Merging：合并Copying的所有键值对(主要是相同键值合并)

(2)、Sorting：使用健(keys)排序所有的键值对(<Key, List<Value>>)

注：Shuffle过程开始于map task数据输出，结束于reduce task数据输入，横跨Map端和Reduce端；在这个过程中，Shuffle主要任务是对Map的结果进行分区(partition)、排序(sort)和分割(spill)，相当于把一组无规则的数据转换成一组具有一定规则的数据。

3、Reduce：负责数据的计算归并

这是最后一步，在这个过程中产生了最终的输出结果，并将其写到HDFS上。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

KirogiYi CSDN认证博客专家 CSDN认证企业博客

码龄13年

87: 原创

13万+: 周排名

189万+: 总排名

47万+: 访问

: 等级

5677: 积分

49: 粉丝

38: 获赞

55: 评论

104: 收藏

私信

关注

热门文章

分类专栏

Android开源项目搜集与剖析
IT项目管理
C# 11篇
Qt 17篇
C 1篇
Windows/C++ 6篇
mysql 4篇
Linux/C++ 16篇
IOS 61篇
程序设计算法 3篇
网站收集 1篇
QML 3篇
综合资料 3篇
GIT 1篇
Scrum 1篇
系统配置 1篇
Android 16篇
Swift 2篇
Big Data 3篇
视频 4篇
OpenGL 5篇
Hadoop 10篇
Java 7篇
前端开发 2篇
Vue(Web) 3篇
Vue(Mobile) 1篇
React Native 1篇
项目管理 5篇
程序员的心力 1篇
ARTS

最新评论

opengles绘制圆柱体(光照+纹理)
柠52003: 哥，你的MySurfaceView这个类没有转载过来，人机写的界面代码没有
java.lang.NoClassDefFoundError: javax/xml/bind/DatatypeConverter
CSDN-Ada助手: 非常感谢你分享这篇博客，遇到NoClassDefFoundError问题的确会让人头疼。我建议你写一篇关于Java项目中常见问题解决方法的博客，包括NoClassDefFoundError、NoSuchMethodError等问题的解决方案，给其他Java开发者提供一些帮助和指导。这样的技术文章对其他用户一定非常有帮助，希望你能继续写下去，相信会有更多读者受益。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
MAC下查找所有指定名字的文件并执行相应命令
JHW2001: 你这代码字体怎么是黑的，看不清啊
我的IT管理这点事儿
Cdf（人名）: 都是博主辛苦创作，我来支持一下，奥利给,期待大佬回访！
项目管理之--文档
ydjjcdd: 方便的话加个微信吧，以后可以相互交流，初入管理的门，看到这篇文章觉得写得东西都是经过认真思考和历练的.我的微信好bjingju。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。