Hadoop学习之shuffle过程最详细讲解

最新推荐文章于 2024-06-24 18:51:43 发布

数据指北Ai

最新推荐文章于 2024-06-24 18:51:43 发布

阅读量9.1k

点赞数 7

本文链接：https://blog.csdn.net/shujuelin/article/details/83992061

版权

hadoop1.x和hadoop2.x的区别：

Hadoop1.x版本：

内核主要由Hdfs和Mapreduce两个系统组成，其中Mapreduce是一个离线分布式计算框架，由一个JobTracker和多个TaskTracker组成。

JobTracker的主要作用：JobTracker是框架的中心，接收任务，计算资源，分配资源，分配任务，与DataNode进行交流等功能。决策程序失败时重启等操作。又当爹又当妈。

TaskTracker同时监视当前机器上的task运行状况。TaskTracker需要把这些信息通过心跳,发送给jobTracker，jobTracker会收集这些信息以给新提交的job分配运行在那些机器上。

存在问题：

1.JobTracker是mapreduce的集中处理点，存在单点故障；

2.JobTracker完成了太多任务，造成了过多资源的消耗，当mapreduce job非常多的时候，会造成很大的内存消耗，同时也增加了JobTracker失效的风险，这也是业界普遍总结出老的hadoop的mapreduce只能支持4000节点主机的上限。

Hadoop2.x版本：

第二代的hadoop版本，为克服hadoop1.0中的hdfs和mapreduce存在的各种问题而提出的。针对hadoop1.x中的单NameNode制约HDFS的扩展性问题，提出了HDFS Federation,它让多个NameNode分管不同的目录进而实现访问隔离和横向扩展,同时它彻底解决了NameNode单点故障问题，针对Hadoop1.0中的Mapreduce的Mapreduce在扩展性和多框架支持等方面不足。

MRv2具有与MRv1相同的编程模型和数据处理引擎，唯一不同的是运行时环境。MRv2是在MRv1基础上经加工之后，运行于资源管理框架YARN之上的计算框架MapReduce。它的运行时环境不再由JobTracker和TaskTracker等服务组成，而是变为通用资源管理系统YARN和作业控制进程ApplicationMaster，其中，YARN负责资源管理和调度，而ApplicationMaster仅负责一个作业的管理。简言之，MRv1仅是一个独立的离线计算框架，而MRv2则是运行于YARN之上的MapReduce。

整体上：分为两个方面

1.任务调度和资源管理方面：

1）Hadoop1中的JobTracker是一个功能集中的部分，负责资源的分配和任务的分配，所以JobTracker单点出问题就会造成整个集群无法使用了，而且MapReduce模式是集成在Hadoop1中，不易分解，不好添加其他模式;

2）Hadoop2中，ResourceManager(RM)就是负责资源的分配，NodeManager(NM)是从节点上管理资源的，而ApplicationMaster(AM)就是一个负责任务分配的组件，根据不同的模式有不同的AM，因此MapReduce模式有自己独有的AM;

2.关于文件系统：

文件系统HDFS，1.x版本没有HA功能，只能有一个NameNode；而2.x添加了HA部分，还可以有多个NameNode同时运行，每个负责集群中的一部分。

------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Shuffle过程是MapReduce的核心，也被称为奇迹发生的地方，Shuffle的正常意思是洗牌或弄乱，可能大家更熟悉的是Java API里的Collections.shuffle(List)方法，它会随机地打乱参数list里的元素顺序。如果你不知道MapReduce里Shuffle是什么，那么请看这张图：

shuffle阶段又可以分为Map端的shuffle和Reduce端的shuffle。

　　一、Map端的shuffle

　　Map端会处理输入数据并产生中间结果，这个中间结果会写到本地磁盘，而不是HDFS。每个Map的输出会先写到内存缓冲区中，当写入的数据达到设定的阈值时，系统将会启动一个线程将缓冲区的数据写到磁盘，这个过程叫做spill。

　　在spill写入之前，会先进行二次排序，首先根据数据所属的partition进行排序，然后每个partition中的数据再按key来排序。partition的目是将记录划分到不同的Reducer上去，以期望能够达到负载均衡，以后的Reducer就会根据partition来读取自己对应的数据。接着运行combiner(如果设置了的话)，combiner的本质也是一个Reducer，其目的是对将要写入到磁盘上的文件先进行一次处理，这样，写入到磁盘的数据量就会减少。最后将数据写到本地磁盘产生spill文件(spill文件保存在{mapred.local.dir}指定的目录中，Map任务结束后就会被删除)。

　　最后，每个Map任务可能产生多个spill文件，在每个Map任务完成前，会通过多路归并算法将这些spill文件归并成一个文件。至此，Map的shuffle过程就结束了。

简单地说，reduce task在执行之前的工作就是不断地拉取当前job里每个map task的最终结果，然后对从不同地方拉取过来的数据不断地做merge，也最终形成一个文件作为reduce task的输入文件。见下图：

Reduce端的shuffle主要包括三个阶段，copy、sort(merge)和reduce。
下面我也分段地描述reduce 端的Shuffle细节：
(1)copy阶段: 首先要将Map端产生的输出文件拷贝到Reduce端，但每个Reducer如何知道自己应该处理哪些数据呢？因为Map端进行partition的时候，实际上就相当于指定了每个Reducer要处理的数据(partition就对应了Reducer)，所以Reducer在拷贝数据的时候只需拷贝与自己对应的partition中的数据即可。ReduceTask 从各个 MapTask 上远程拷贝一片数据，并针对某一片数
据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中。
（2）Merge 阶段：在远程拷贝数据的同时，ReduceTask 启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多。
（3）Sort 阶段：按照 MapReduce 语义，用户编写 reduce()函数输入数据是按 key 进行聚集的一组数据。为了将 key 相同的数据聚在一起，Hadoop 采用了基于排序的策略。由于各个 MapTask 已经实现对自己的处理结果进行了局部排序，因此，ReduceTask 只需对所有数据进行一次归并排序即可。
（4）Reduce 阶段：reduce()函数将计算结果写到 HDFS 上。