从零开始 MapReduce

最新推荐文章于 2021-12-30 14:53:11 发布

阿星君

最新推荐文章于 2021-12-30 14:53:11 发布

阅读量214

点赞数

分类专栏： java高阶框架 java高阶面试阿里面试文章标签：分布式大数据 spark java hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dingyu002/article/details/117995411

版权

前言

你将 get 到分布式计算引擎的核心思路，MapReduce 并行度解析

一、MapReduce 的核心思路

1.1 分布式计算引擎

下图描述的是 MapReduce 的几个核心阶段

一句话总结分布式处理的核心思路：分而治之 + 并行计算。之后的 Spark 和 Flink 都是基于它的思想所设计的。HDFS也可以一句话总结：分散存储 + 冗余存储。

复杂问题，单台计算搞不定，那么就发挥人多力量的优势：组建一个多服务器组成的集群来搞定分布式并行计算。核心过程为：

第一阶段 Mapper（提取特征的过程）：复杂大任务拆分成多个小任务并行执行计算
第二阶段 Reducer（执行逻辑的地方）：把第一阶段的并行执行的小任务的执行结果进行汇总

但是单机任务转化成分布式计算任务本身就会遇到很多各式各样的问题。

数据存储的问题，首先需要搞定海量数据存储的问题。就是我们耳熟能详的 HDFS
运算逻辑至少要分为两个阶段，先并发计算（map），然后汇总（reduce）结果
这两个阶段的计算如何启动？如何协调？两个阶段必须保证先 map 后 reduce
运算程序到底怎么执行？数据找程序还是程序找数据？数据在集群的各个机器里面，但是执行任务的机器上不一定会存在数据，这时候该怎么处理？
如何分配两个阶段的多个运算任务？
如何管理任务的执行过程中间状态，如何容错？执行完的结果该怎么保存，如果执行任务时机器突然宕机了又怎么办？
如何监控和跟踪任务的执行？多个机器会得出计算后的结果，但是我们能不能将先执行完第一阶段的任务的机器提前拉取到第二阶段？
出错如何处理？抛异常？重试？

针对上述问题，MapReduce 都已经帮我们实现好了，除了逻辑功能。

1.2 MapReduce 架构设计

它也是一个大型的责任链模式系统。而且它要保证，不管多复杂的数据种类，不管多复杂的计算类型，不管数据多大，存储在哪里，都应该能使用这个框架执行相关的任务计算。这也是作为框架的通用性！把分布式计算的整个流程都完成，然后制定规范，让用户只需要按照规范去编写对应的业务逻辑。

首先是数据源的对接问题，MapReduce 的数据读取组件为：InputFormat + RecordReader
第一阶段：Mapper，针对原始数据进行改造，提取需要计算的数据（Value），并加上特征（Key）
中间阶段：把相同特征的 value 聚合到一起，执行一次第二阶段的逻辑汇总操作
<

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
2
评论
从零开始 MapReduce

前言你将 get 到分布式计算引擎的核心思路，MapReduce 并行度解析一、MapReduce 的核心思路1.1 分布式计算引擎带你入坑大数据（三） --- MapReduce介绍，感兴趣的也可以跳转过去看看，之前曾经写过，现在过了些时日，重新认识一下。下图描述的是 MapReduce 的几个核心阶段一句话总结分布式处理的核心思路：分而治之 + 并行计算。之后的 Spark 和 Flink 都是基于它的思想所设计的。HDFS也可以一句话总结：分散存储 + 冗余存储。复杂问题，
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。