MapReduce的原理及执行过程

最新推荐文章于 2023-02-08 18:23:34 发布

Datalover_Cindy

最新推荐文章于 2023-02-08 18:23:34 发布

阅读量236

点赞数

分类专栏： hive

hive 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

MapReduce简介

MapReduce是一种分布式计算模型，是Google提出的，主要用于搜索领域，解决海量数据的计算问题。
MR有两个阶段组成：Map和Reduce，用户只需实现map()和reduce()两个函数，即可实现分布式计算。

MapReduce执行流程

MapReduce原理

MapReduce的执行步骤：

1、Map任务处理

　　1.1 读取HDFS中的文件。每一行解析成一个<k,v>。每一个键值对调用一次map函数。 <0,hello you> <10,hello me>

　　1.2 覆盖map()，接收1.1产生的<k,v>，进行处理，转换为新的<k,v>输出。　　　　　　　　　　<hello,1> <you,1> <hello,1> <me,1>

　　1.3 对1.2输出的<k,v>进行分区。默认分为一个区。详见《Partitioner》

　　1.4 对不同分区中的数据进行排序（按照k）、分组。分组指的是相同key的value放到一个集合中。　排序后：<hello,1> <hello,1> <me,1> <you,1> 分组后：<hello,{1,1}><me,{1}><you,{1}>

　　1.5 （可选）对分组后的数据进行归约。详见《Combiner》

2、Reduce任务处理

　　2.1 多个map任务的输出，按照不同的分区，通过网络copy到不同的reduce节点上。（shuffle）详见《shuffle过程分析》

　　2.2 对多个map的输出进行合并、排序。覆盖reduce函数，接收的是分组后的数据，实现自己的业务逻辑，　<hello,2> <me,1> <you,1>

　　　　处理后，产生新的<k,v>输出。

　　2.3 对reduce输出的<k,v>写到HDFS中。

转载自：https://www.cnblogs.com/ahu-lichang/p/6645074.html

Datalover_Cindy

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MapReduce的原理及执行过程

MapReduce简介MapReduce是一种分布式计算模型，是Google提出的，主要用于搜索领域，解决海量数据的计算问题。 MR有两个阶段组成：Map和Reduce，用户只需实现map()和reduce()两个函数，即可实现分布式计算。MapReduce执行流程 MapReduce原理 MapReduce的执行步骤：1、Map任务处理　　1.1 读...
复制链接

扫一扫

专栏目录

Datalover_Cindy CSDN认证博客专家 CSDN认证企业博客

码龄8年

2: 原创

65万+: 周排名

175万+: 总排名

1万+: 访问

: 等级

149: 积分

1: 粉丝

5: 获赞

1: 评论

20: 收藏

私信

关注

热门文章

分类专栏

成长树 2篇
hive 3篇

最新评论

tableau 连接python
weixin_37555895: startup.bat 点击一闪而过，啥原因呢？亲

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。