MapReduce简介

最新推荐文章于 2023-02-06 21:54:19 发布

qq_43193797

最新推荐文章于 2023-02-06 21:54:19 发布

阅读量395

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/qq_43193797/article/details/85079829

版权

hadoop 专栏收录该内容

45 篇文章 1 订阅

订阅专栏

一 MapReduce 入门

1.1 MapReduce 定义

Mapreduce 是一个分布式运算程序的编程框架，是用户开发“基于 hadoop 的数据分析应用”的核心框架。
Mapreduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个 hadoop 集群上。

1.2 MapReduce 优缺点

1.2.1 优点

1）开发简单，易于编程。它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的 PC 机器上运行。也就是说你写一个分布式程序，跟写一
个简单的串行程序是一模一样的。用户可以不用考虑进程间通信，套接字编程，无需非常高深的技巧，只需要实现一些非常简单的逻辑，其他的交由MapReduce计算框架去完成，大大简化了分布式程序的编写难度。
2）可扩展性强。当你的计算资源不能得到满足的时候，你可以通过简单的增加机器
来扩展它的计算能力。
3）容错性强。对于节点故障导致的作业失败，MapReduce计算框架会自动将作业安排到健康节点重新执行，直到任务完成，而这些，对于用户来说都是透明的。
4）适合 PB 级以上海量数据的离线处理。这里加红字体离线处理，说明它适合离线处理而不适合在线处理。比如像毫秒级别的返回一个结果，MapReduce 很难做到。

1.2.2 缺点

MapReduce 不擅长做实时计算、流式计算、DAG（有向图）计算。
1）实时计算。MapReduce 无法像 Mysql 一样，在毫秒或者秒级内返回结果
2）流式计算。流式计算的输入数据是动态的，而 MapReduce 的输入数据集是静态的，不能动态变化。这是因为 MapReduce 自身的设计特点决定了数据源必须是静态的。
3）DAG（有向图）计算。多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，MapReduce 并不是不能做，而是使用后，每个 MapReduce 作业的输出结果都会写入到磁盘，会造成大量的磁盘 IO，导致性能非常的低下。

二.MapReduce的编程思想

MapReduce操作数据的最小单位是一个键值对

第一步就需要将数据抽象为键值对的形式,接着map函数会以键值对作为输入,经过map函数的处理,产生一系列新的键值对作为中间结果输出到本地。
MapReduce计算框架会自动将这些中间结果按照健做聚合处理，并将健相同的数据分发给reduce函数处理（用户可以设置分发规则）。reduce函数以健和对应的值作为输入，经过reduce函数处理后，产生了另外一系列键值对作为最终输出。

举个栗子
在这里插入图片描述
1）分布式的运算程序往往需要分成至少2个阶段。
2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。
3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。
4）MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段，如果用户的业务逻辑非常复杂，那就只能多个MapReduce程序，串行运行。
总结：分析WordCount数据流走向深入理解MapReduce核心思想。