[Hadoop 1.x] MapReduce - 1_hadoop1.x中 mapreduce是由什么组成-CSDN博客

本文链接：https://blog.csdn.net/jiawenguo123/article/details/81637004

本文深入解析MapReduce的工作原理，包括JobTracker和TaskTracker的角色，MapReduce执行流程，以及InputFormat和RecordReader的作用。同时，文章探讨了block与split的区别，Combiner的使用及其注意事项。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Job Tracker
1. 接收实并例化任务, 调度任务到节点上运行
2. 监控任务运行
3. 监控节点状态

Task Tracker
1. 通过心跳通知当前节点的健康状态
2. 每次心跳包含map reduce的任务数，以及运行任务的详细信息
3. 若Slave空闲，每次心跳会询问Job Tracker是否有新的任务做
4. 通过线程池多线程处理心跳和客户请求
5. 每个工作节点(data node)上只有一个task tracker

MapReduce的执行流程
- 这里写图片描述
1. 通过InputFormat把数据从HDFS上读入，转换成记录(行)的形式对传给map, input split是逻辑的概念，能够跨同一个file的block，但是不会跨file
2. map把input split的值转换成KV值对,并对Key哈希取模(哈希分母为reduce的个数，分区个数也和reduce相同)，算出 (partitionid, key, value)写入内存缓存区
3. 当内存缓存区达到阈值时（80%），会锁定这80%内存向磁盘溢写，同时会继续向剩余20%写入KV
4. 溢写（spill）时，会对同一分区的key进行排序然后写入磁盘临时文件
5. 对所有溢写的小文件进行合并，同样在每个分区内对key进行排序
6. 每个reducer会拷贝每个map的同一分区cope数据(reducer1拷贝每个map的partition1, reducer2拷贝每隔map的partition2…)到缓冲区，然后进行排序mege （过程和map一样包含溢写，但溢写的时候不包含分区，因为都来源于每个map的同一分区）
8. 通过reduce对数据进行处理
9. 将处理结果输出到HDFS上
注: 3,4,5,6为shuffle步骤
注: InputFormat分为两部分，总的来说就是通过Input Split划分出Spilt地址范围，再通过RecordReader把Split地址范围内的记录逐条读出。
1. Input Split. 由于每个文件在HDFS上分为多个block，每个block固定大小，因此不可能正在block的边界正好保存一条完整的记录。Input Split就是在block的基础上做一个逻辑的划分，保证记录的完整性。例如block1的结尾处为”I am “, block2的开头为”a student.”， InputSplit会划分出一个逻辑的split, 标记split的结尾处为block2的”a student.”。也就是说包含了另外一个block2的部分开头。一个split对应一个map。也就是说block是hdfs上的单位，split是map输入的单位，split可能会夸block.
2. RecordReader. 会根据split的逻辑划分将记录一条条读入，并且以KV对的形式输出给map.
https://www.cnblogs.com/gwgyk/p/3997734.html

在Hadoop1.x中默认大小是64M，Hadoop2.x中大小默认为128MB
set dfs.default.blocksize=67108864 设置block size为64MB
set mapred.reduce.tasks=100; 设置reduce个数为100，默认为1。太少，单个压力太大太慢，试错代价大。太多，shuffle小文件太多，影响性能。

Combiner
Combiner在溢写时根据Key进行合并，对SUM，MAX等运算在性能上有很大帮助 (减少Shuffle时数据的copy量和reduce数据的处理量)。
但是Combiner使用时也要注意。比如求平均AVG就不能用。在每个Map求完平均后再给reducer求平均，数据会算错。只能在map里不做任何合并，将所map同一分区的所有kv对传给reduce一起做