MapReduce概述

欲无缘

已于 2024-01-11 14:44:42 修改

阅读量46

点赞数 1

分类专栏： # Hadop 文章标签： mapreduce 大数据

于 2024-01-11 14:44:05 首次发布

原文链接：https://blog.csdn.net/f986153489/article/details/130488054?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522170495541116800213016256%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=170495541116800213016256&biz_id=0&utm_med

版权

Hadop 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

文章目录

MapReduce定义

MapReduce是一个分布式运算程序的编程框架，其核心功能为把用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在Hadoop集群上。

MapReduce优缺点

优点

(1)易于编程
它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的 PC 机器上运行。也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。

(2)良好的扩展性
当你的计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力。

(3)高容错性
MapReduce 设计的初衷就是使程序能够部署在廉价的 PC 机器上，这就要求它具有很高
的容错性。比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于这个任务运行失败，而且这个过程不需要人工参与，而完全是由 Hadoop 内部完成的。

(4)适合PB级以上海量数据的离线处理
可以实现上千台服务器集群并发工作，提供数据处理能力。

缺点

(1)不擅长实时计算
MapReduce 无法像 MySQL 一样，在毫秒或者秒级内返回结果。

(2)不擅长流式计算
流式计算的输入数据是动态的，而 MapReduce 的输入数据集是静态的，不能动态变化。
这是因为 MapReduce 自身的设计特点决定了数据源必须是静态的。

(3)不擅长DAG(有向无环图)计算
多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，
MapReduce 并不是不能做，而是使用后，每个 MapReduce 作业的输出结果都会写入到磁盘，会造成大量的磁盘 IO，导致性能非常的低下。

MapReduce核心思想

请添加图片描述

事实上，分布式的运算程序往往需要分成至少2个stage(Map和Reduce)
(1)stage1: MapTask并发实例完全并发运行,互不相干
(2)stage2: ReduceTask并发实例互不相干,但它们的数据依赖于上个stage的所有MapTask并发实例的输出
(3)MapReduce编程模型只能包含一个Map stage和一个Reduce stage,如果用户的业务逻辑很复杂,便只能多MapReduce程序串行运行