MR知识点

最新推荐文章于 2021-04-25 05:38:06 发布

LaZY_apple

最新推荐文章于 2021-04-25 05:38:06 发布

阅读量367

点赞数 1

分类专栏：大数据文章标签：大数据 MR MapperReduce

本文链接：https://blog.csdn.net/weixin_43093501/article/details/90139215

版权

39 篇文章 6 订阅

订阅专栏

MR原理

调用waitForCompletion()后

提交作业，调用内部提交方法，作业提交器根据本地/集群模式获取作业id。作业提交器复制配置信息。作业提交器计算切片个数（map个数）。作业提交器生成作业配置文件，作业切片文件到临时目录。作业提交器把作业提交给本地/集群。
将作业转换成内部作业提交（是一个线程的子类），执行作业的run（）
获取切片元数据，计算切片数，得到map任务集合，通过线程池执行map任务。得到reduce任务集合，执行reduce任务。
最终通过反射运行自己实现的类（通过配置文件，找到自己实现类的类名）

在这里插入图片描述

向资源管理器请求新的application 的id
将作业（切片信息，配置信息，jar包）拷贝到hdfs
资源管理器启动一个AppMaster，Appmaster检索作业信息（从hdfs）获取并发度（map个数）），向资源管理器请求资源列表（。
APPMaster联系相应个数节点管理器。节点管理器启动虚拟机，启动yarn子进程。子进程读取切片信息（第几个切片、从哪开始读，到哪结束、等），执行map和reduce任务

对reduce所有输出结果进行排序
在这里插入图片描述

对value排序
（想获得所有年份中，温度最高所在年份）在这里插入图片描述
步骤：

能够执行大型数据集间的连接操作

前提：小表、reduce数量相同，建相同
步骤：将小表放入内存，放到map任务的内存中（hashmap）。扫描大表的时候检查hashmap相同的key连接输出。

步骤：map端做标。
缺点：由于要经过shuffle，所以低效。
实现代码

步骤：在map端过滤掉不参加join的数据

Hadoop 将作业分成若干任务（task）执行，包括map任务、reduce任务。
任务运行在集群的节点上，通过YARN进行调度。
haddop将map的输入数据分成等长数据块，称为输入分片。合理的分片大小趋向于hdfs的一个块大小（128M）。
map的结果会存在硬盘上，作业完成后将其删除。
combiner函数
1. 位于map的输出端和reduce的输入端中间，有利于优化MR计算（减少了map端和reduce端的数据传输）
2. combiner函数通过reduce函数实现。