Mapreduce原理及应用

最新推荐文章于 2023-06-04 00:46:34 发布

ZZJ_

最新推荐文章于 2023-06-04 00:46:34 发布

阅读量509

点赞数

分类专栏：大数据笔记整理文章标签： Mapreduce原理及应用

本文链接：https://blog.csdn.net/qq_40262690/article/details/83184624

版权

本文深入探讨MapReduce编程模型，详细解释MapReduce的原理，包括Shuffle write和Shuffle read阶段，以及核心的程序运行机制。同时，通过MapReduce-WordCount示例介绍了MapReduce的业务逻辑和编码规范，揭示了如何利用MapReduce进行大规模数据的并行处理。

摘要由CSDN通过智能技术生成

Mapreduce原理

MapReduce（以下简称MR）是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）“和"Reduce（归约）”，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。

MR主要思想:分久必合

MR是由两个阶段组成
Map端
Reduce端

MR核心思想：“相同”的key为一组，调用一次reduce方法，方法内迭代这一组数据进行计算

MapReduce分布式计算原理

MR在计算之前，会将HDFS上的文件划分切片
默认大小 block = split切片 = map task 注:split会比block大几kb或小几kb，因为block是严格按照字节切分，防止数据乱码，会将block下一块的第一行数据也添加进去；

Shuffle write阶段

Map task将处理后的每一条记录打上标签，打标签的目的就是为让这一条知道将来被哪一个redcuce task处理，然后进入buffer后，每一条记录是由三部分组成：1、分区号 2、key 3、value，Map task往buffer中写入过程中，一旦写入到80M，此时会将这80M的内存封锁，封锁后，会对内存中的数据进行combiner(小聚合)，然后进行排序，将相同分区的数据放到一起，并且分区的数据是有序的，以上的combiner以及排序完成后，就开始溢写数据到磁盘上，此时的磁盘文件就是一个根据分区号，分好区的，并且内部有序的文件combiner、sort、spill每进行一次溢写，就会产生一个磁盘小文件

Map task计算完毕后，会将磁盘上的小文件合并成一个大文件，