MapReduce的核心思想概述

最新推荐文章于 2024-06-29 17:01:13 发布

墨染百城

最新推荐文章于 2024-06-29 17:01:13 发布

阅读量8.9k

点赞数

分类专栏：大数据框架 Hadoop 文章标签： mapreduce 思想

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mrbcy/article/details/60139191

版权

大数据框架同时被 2 个专栏收录

31 篇文章 0 订阅

订阅专栏

29 篇文章 0 订阅

订阅专栏

为什么需要MapReduce

MapReduce是一个分布式运算程序的编程框架。核心功能是用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序。

什么是分布式程序

如果一批文本文件有2G大小。假设我们要统计每个单词出现的总次数。我们无法单独的用一台机器处理。我们要写一个程序同时在多个机器上运行。

首先第一个问题是如何存放文件？将文件存放到HDFS上去。

每个机器只能统计到自己机器上的数据，但是无法得出全局的结论。

所以，分布式的运算程序往往需要至少分成2个阶段

第1个阶段是在指定范围内进行计算，然后发给第2个阶段。同一段代码在多个实例上运行。

第2个阶段读入第1阶段的输入，然后进行汇总处理。可能运行多个实例，但是对每一种的输入（第1阶段的输出，需要以某种方式标注属于哪一种，常常是Key）必须统一发给一个实例。

对应到MapReduce中

阶段1（Map）.第1阶段的task并发实例各司其职，互不相干。完全并行。

阶段2（Reduce）.第2阶段的task并发实例互不相干，但是它们的数据依赖于上一个阶段的所有task并发实例的输出。这种依赖关系可能是一种全局的。

MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段。如果业务很复杂，通过2个阶段搞不定，就再搞一个MapReduce程序。将上一个MapReduce程序的输出作为输入。

如何完成任务

Map Task

使用HDFS的流式API一行行的读入文件数据。
按空格切分行内切分单词
用HashMap统计每个单词的出现频率
将HashMap按首字母分成3个HashMap
将HashMap分别传给下一个阶段

这个过程中有若干个复杂的细节问题：

MapTask如何进行任务分配
ReduceTask如何进行任务分配
MapTask如何知道每个ReduceTask运行在哪个机器上，它们如何衔接
如果某些MapTask运行失败，如何处理
MapTask如果都要自己负责输出数据的分区会非常麻烦

这些问题应该如何解决？对上述的思想进行修改。

上面的问题主要是在于如何协调MapTask和ReduceTask。它们需要一个主管，叫做MR Application Master。由MAP Master启动MapTask和ReduceTask，在启动时分配任务。MapTask只需要把输出给自己的工作目录，接下来MAP Master会启动ReduceTask，告诉它们如何去取数据。如果有一个任务失败了，MAP Master可以在另一台机器上启动一个Map Task。

总结

一个分布式计算程序需要有3部分组成，MapTask，ReduceTask，MAP Master。MAP Master不负责业务的处理，只负责任务的协调。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

墨染百城 CSDN认证博客专家 CSDN认证企业博客

码龄8年

187: 原创

9万+: 周排名

223万+: 总排名

49万+: 访问

: 等级

5307: 积分

252: 粉丝

224: 获赞

151: 评论

868: 收藏

私信

关注

热门文章

分类专栏

Mproxy项目实录 7篇
Java并发编程 2篇
Linux基础 5篇
运维 6篇
大数据框架 31篇
Java基础 28篇
自定义rpc框架 13篇
maven 1篇
TDD 5篇
书山有路 16篇
测试
软件测试的艺术 4篇
Hadoop 29篇
Ambari 1篇
Java并发编程 1篇
Python 15篇
Mproxy项目实录 7篇
爬虫 2篇
信息检索笔记 2篇
LeetCode 41篇
随笔 5篇
职场 4篇
Hive 11篇
算法 5篇
Scala 1篇
SQL练习 2篇
SQL学习 15篇
flume 1篇
管理软件 1篇

最新评论

【SQL练习】经典SQL练习题
大数据-: 19题跟21题有什么区别哇
【SQL练习】经典SQL练习题
weixin_43840217: 第42题，答案select *会报错，个人理解[code=sql] SELECT s1.sno, s1.cno, s1.degree FROM scores s1 INNER JOIN (SELECT s2.cno c, MAX(s2.degree) max FROM scores s2 GROUP BY s2.cno) s3 ON s1.cno=c and s1.degree=max; [/code]
【SQL练习】经典SQL练习题
weixin_43840217: 记录第33题，[code=sql] SELECT s1.* FROM scores s1 INNER JOIN (SELECT s2.cno cno , AVG(s2.degree) as avg FROM scores s2 GROUP BY s2.cno) s3 ON s1.cno=s3.cno and s1.degree<s3.avg; [/code]
【SQL练习】经典SQL练习题
weixin_43840217: 第28题，只找到了计算机系副教授“李诚”。根据题意，电子工程系的讲师“张旭”也应该被找到吧。[code=sql] SELECT t0.tname, t0.prof FROM teachers t0 WHERE t0.prof<>(SELECT DISTINCT t1.prof FROM teachers t1 INNER JOIN teachers t2 on t1.depart<>t2.depart where t1.prof=t2.prof); [/code]
【SQL练习】经典SQL练习题
Face_spider: 刚看到这个帖子,看评论都在说20题,好吧我也做出来了献丑了 select * from (select *,row_number() over(partition by cno order by degree desc) as rk from scores) t1 where rk != 1 and sno in (select sno from scores group by sno having count(cno) > 1);

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。