hadoop之MapReduce

最新推荐文章于 2025-09-18 10:25:24 发布

原创最新推荐文章于 2025-09-18 10:25:24 发布 · 1.1k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #mapreduce #大数据

hadoop 专栏收录该内容

1 篇文章

订阅专栏

一、MapReduce的概念

1.定义：MapReduce是一种编程模型，它通过将数据划分为小块，并在多个节点上并行处理这些小块数据，从而实现大规模数据集的并行运算。

2用途：MapReduce主要用于处理大于1TB的大规模数据集，广泛应用于大数据处理、搜索引擎索引构建、日志分析等领域。

注：2004年，谷歌发表了一篇名为《MapReduce》的论文，主要介绍了如何在分布式的存储系统上对数据进行高效率的计算。2005年，Nutch团队使用Java语言实现了这个技术，并命名为MapReduce。时至今日，MapReduce是Apache Hadoop的核心模块之一，是运行在HDFS上的分布式运算程序的编程框架，用于大规模数据集（大于1TB）的并行运算。其中的概念，"Map（映射）"和"Reduce（归约）"

二、MapReduce的原理

1.MapTask执行阶段

1. maptask调用FileInputFormat的getRecordReader读取分片数据
2. 每行数据读取一次，返回一个(K,V)对，K是offset（偏移量）,V是一行数据
3. 将k-v对交给MapTask处理
4. 每对k-v调用一次map(K,V，context)方法，然后context.write(k,v)
5. 写出的数据交给收集器OutputCollector.collector()处理
6. 将数据写入环形缓冲区，并记录写入的起始偏移量，终止偏移量，环形缓冲区默认大小100M
7. 默认写到80%的时候要溢写到磁盘，溢写磁盘的过程中数据继续写入剩余20%
8. 溢写磁盘之前要先进行分区然后分区内进行排序
9. 默认的分区规则是hashpatitioner，即key的 hash%reduceNum
所有的mapreduce，其实都用到了分区，如果不写，使用的是默认的分区。
job.setNumReduceTask(3);
10. 默认的排序规则是key的字典顺序，使用的是快速排序
11. 溢写会形成多个文件，在maptask读取完一个分片数据后，先将环形缓冲区数据刷写到磁盘
12. 将数据多个溢写文件进行合并，分区内排序（外部排序===》归并排序）

关于9 的再次解释：

2.ReduceTask的执行流程：

1. 数据按照分区规则发送到reducetask
2. reducetask将来自多个maptask的数据进行合并，排序（外部排序===》归并排序）
3. 按照key相同分组
4. 一组数据调用一次reduce(k,iterable<v>values,context)
5. 处理后的数据交由reducetask
6. reducetask调用FileOutputFormat组件
7. FileOutputFormat组件中的write方法将数据写出。

三、Shuffle 过程

MapReduce的Shuffle过程：是MapTask的后半程，以及ReduceTask的前半程
从MapTask中的map方法结束，到ReduceTask中的reduce方法开始，这个中间的部分就是Shuffle。

Shuffle过程是MapReduce的核心，心脏。

1.map端：

1、map中的context.write方法，对外写出的时候，其实是写入到了一个环形缓冲区内（内存形式的），这个环形缓冲区大小是100M,可以通过参数设置。如果里面的数据大于80M,就开始溢写（从内存中将数据写入到磁盘上）。溢写的文件存放地址可以设置。
2、在溢写过程中，环形缓冲区不会停止工作，是会利用剩余的20%继续存入环形缓冲区的。除非是环形缓冲区的内存满了，map任务就被阻塞了。
在溢写出来的文件中，是排过序的，排序规则：快速排序算法。在排序之前，会根据分区的算法，对数据进行分区。是在内存中，先分区，在每一个分区中再排序，接着溢写到磁盘上的。
3、溢写出来的小文件需要合并为一个大文件，因为每一个MapTask只能有一份数据。就将相同的分区文件合并，并且排序（此处是归并排序）。每次合并的时候是10个小文件合并为一个大文件，进行多次合并，最终每一个分区的文件只能有一份。
假如100个小文件，需要合并几次呢？
100 每10分合并一次，第一轮：100个文件合并为了10个文件，这10个文件又合并为一个大文件，总共合并了11次。

4、将内存中的数据，溢写到磁盘上，还可以指定是否需要压缩，以及压缩的算法是什么。

2.reduce端：

1、reduce端根据不同的分区，拉取每个服务器上的相同的分区的数据。
reduce任务有少量复制线程，因此能够并行取得map输出。默认值是5个线程，但这个默认值可以修改设置mapreduce.reduce.shuffle. parallelcopies 属性即可。
2、如果map上的数据非常的小，该数据会拉取到reduce端的内存中，如果数据量比较大，直接拉取到reduce端的硬盘上。

3.环形缓冲区：

1.环形缓冲区，其实是一个数组，将数组分为两部分，分割的这个点就称之为轴心。存储KV键值对，是从左到右，类似于顺时针，因为每一个KV键值对都有对应的元数据。元数据是从轴心开始，从右向左执行。

2.当两者数据占用空间达到80%的时候，需要清理数组，清理完之后，轴心发生了变化。

3.KV键值对的元数据，每四个是一组，共计4组）

第一组：：表示Value的起始位置；

第二组：Key值的起始位置；

第三组：分区信息；

第四组：val的长度；

这些内容称之为KV键值对的meta数据（元数据）。