MapReduce原理梳理

最新推荐文章于 2022-03-08 18:58:06 发布

怎么没吃饱

最新推荐文章于 2022-03-08 18:58:06 发布

阅读量139

点赞数

分类专栏：分布式 hadoop mapreduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/snksnk1091/article/details/86630942

版权

分布式同时被 3 个专栏收录

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

mapReduce 实际是一个分布式计算的框架，其核心功能就是将用户的业务逻辑代码整合成一个完整的分布式运算程序，并发运行在hadoop集群上。

分布式计算框架提出的原因是因为

海量数据在单机环境下由于资源限制而无法完成。
如果直接将一个普通的java程序优化成分布式版本，会增加程序的复杂度与设计难度
引入mapreduce框架之后，开发人员只需要关注业务逻辑的实现而将其中复杂的重复逻辑交由框架进行处理。

用一个介绍mapreduce框架时经常使用的wordCount业务需求来看，如果自己开发全部逻辑：

单机版：内存是否可以存储下？不行的话使用外部排序；但是磁盘能否装得下？；需要多强大的处理支持计算？

分布式：

分布式存储（交由框架即为HDFS）
可以将整个运算流程分为两个或多个阶段（交由框架即为map阶段：独立并发， reduce阶段：汇聚计算）
多线程程序包的分发
数据的分段与分发
不同阶段的数据如何启动，如何协调不同阶段的进度?
整个运行过程中如何监控运行状态, 某阶段失败后如何自动重试, 下一阶段如何等待?

那么如果把各个分布式所增加的复杂逻辑全部都交由框架进行处理,那么开发人员就可专注于核心业务逻辑的实现:

MRAppMaster
MapTask
ReduceTask

怎么没吃饱

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce原理梳理

mapReduce 实际是一个分布式计算的框架，其核心功能就是将用户的业务逻辑代码整合成一个完整的分布式运算程序，并发运行在hadoop集群上。分布式计算框架提出的原因是因为海量数据在单机环境下由于资源限制而无法完成。如果直接将一个普通的java程序优化成分布式版本，会增加程序的复杂度与设计难度引入mapreduce框架之后，开发人员只需要关注业务逻辑的实现而将其中复杂的重复逻辑交由框架...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。