MapReduce

最新推荐文章于 2022-03-27 20:19:58 发布

秘境之眼

最新推荐文章于 2022-03-27 20:19:58 发布

阅读量404

点赞数 1

分类专栏：大数据技术原理与应用

本文链接：https://blog.csdn.net/TxyITxs/article/details/105293565

版权

大数据技术原理与应用专栏收录该内容

21 篇文章 1 订阅

订阅专栏

一.分布式并行编程
1.1 MapReduce 是一种分布式编程框架。
1.2 Hadoop MapReduce是MapReduce的开源实现,门槛更低；
1.3 MapReduce适合数据密集型的应用。

二.MapReduce模型简介
2.1 将MapReduce的底层处理细节抽象成Map和Reduce两个函数;
2.2 MapReduce 采用分而治之的策略，将大数据集切分为非常多的独立的小分片，为每个分片单独启动一个map任务，最终通过多个map任务，并行的在多个机器上去处理数据。

2.3 MapReduce理念

计算向数据靠拢而不是数据向计算靠拢：将应用程序分发到数据所在的机器；
采用Master/slave的架构；
Map函数：输入数据是键值对，输出也是键值对；
Reduce函数：键：值列表作为输入数据，输出为键值对；

三.MapReduce体系结构
在这里插入图片描述
3.1 Client客户端：通过Client可以提交用户编写的应用程序，提交到JobTracker端；也可以查看作业运行状态；
3.2 JobTracker：负责资源的监控和作业调度；监控底层TaskTracker和当前运行的Job的健康状态；以及对失败情况及时把任务转移到其他结点继续执行；跟踪任务执行进度和资源使用量；
3.3 TasK Tracker：执行具体的相关任务；会把自己的资源使用情况，以及任务运行进度通过heartbeat发送给JobTracker；以slot（槽）为单位去调度资源；。

四.MapReduce 工作流程
在这里插入图片描述
4.1 HDFS主要进行分布式数据存储，HDFS和MapReduce组合使用；
4.2 不同的map和reduce之间是不会发生信息交换的；
4.3 MapReduce执行的各个阶段

InputFormat：从HDFS中加载数据，对输入进行格式验证;
Split:把大的输入文件进行分片(逻辑分片)；
RR:记录阅读器：根据分片的长度和位置信息，读出每个分片，以键值对的形式输入map；
shuffle：对许多中间结果进行分区排序，归并，发送给Reduce；
OutputFormat:对数据格式进行验证，写入分布式文件系统；

4.4 分片：分片要适中，分片大小一般以一个块的大小作为分片大小；分片和map数量对应；
在这里插入图片描述
4.5 Reduce数量

最优的Reduce任务数取决于集群中可用的reduce任务槽的数量；
通常设置比reduce任务槽数量稍微小一些的Reduce任务个数，预留一定资源用于系统处理可能发生的错误；

五.Shuffle 过程
在这里插入图片描述

5.1 Map端的shuffle过程

每个map任务分配一定的缓存，默认100M；
设置一个溢写比，一般设置为0.8，即不是缓存满了才发生溢写；溢写要发生分区(对应相应的Reduce)排序，合并(对多个相同的键值对合并为一个)；然后写入磁盘；磁盘上的多个磁盘文件归并为一个大的磁盘文件，也可以设置一个阈值；

5.2 Reduce端的shuffle过程
在这里插入图片描述

归并：对多个相同键值对归并为一个键值对列表；

六.MapReduce应用程序的执行过程
在这里插入图片描述

中间结果写入本地磁盘，不写入分布式文件系统；

七.词频统计案例

只有满足分而治之的任务才能用MapReduce来去处理；

八.MapReduce编程
继承Map，重写map函数；
继承Reduce，重写reduce函数；

秘境之眼

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
MapReduce

一.分布式并行编程1.1 MapReduce 是一种分布式编程框架。1.2 Hadoop MapReduce是MapReduce的开源实现,门槛更低；1.3 MapReduce适合数据密集型的应用。二.MapReduce模型简介2.1 将MapReduce的底层处理细节抽象成Map和Reduce两个函数;2.2 MapReduce 采用分而治之的策略，将大数据集切分为非常多的独立的小...
复制链接

扫一扫