[Hadoop 1.x] MapReduce - 1

Job Tracker
1. 接收实并例化任务, 调度任务到节点上运行
2. 监控任务运行
3. 监控节点状态

Task Tracker
1. 通过心跳通知当前节点的健康状态
2. 每次心跳包含map reduce的任务数,以及运行任务的详细信息
3. 若Slave空闲,每次心跳会询问Job Tracker是否有新的任务做
4. 通过线程池多线程处理心跳和客户请求
5. 每个工作节点(data node)上只有一个task tracker

MapReduce的执行流程
- 这里写图片描述
1. 通过InputFormat把数据从HDFS上读入,转换成记录(行)的形式对传给map, input split是逻辑的概念,能够跨同一个file的block,但是不会跨file
2. map把input split的值转换成KV值对,并对Key哈希取模(哈希分母为reduce的个数,分区个数也和reduce相同),算出 (partitionid, key, value)写入内存缓存区
3. 当内存缓存区达到阈值时(80%),会锁定这80%内存向磁盘溢写,同时会继续向剩余20%写入KV
4. 溢写(spill)时,会对同一分区的key进行排序然后写入磁盘临时文件
5. 对所有溢写的小文件进行合并,同样在每个分区内对key进行排序
6. 每个reducer会拷贝每个map的同一分区cope数据(reducer1拷贝每个map的partition1, reducer2拷贝每隔map的partition2…)到缓冲区,然后进行排序mege (过程和map一样包含溢写,但溢写的时候不包含分区,因为都来源于每个map的同一分区)
8. 通过reduce对数据进行处理
9. 将处理结果输出到HDFS上
注: 3,4,5,6为shuffle步骤
注: InputFormat分为两部分,总的来说就是通过Input Split划分出Spilt地址范围,再通过RecordReader把Split地址范围内的记录逐条读出。
1. Input Split. 由于每个文件在HDFS上分为多个block,每个block固定大小,因此不可能正在block的边界正好保存一条完整的记录。Input Split就是在block的基础上做一个逻辑的划分,保证记录的完整性。例如block1的结尾处为”I am “, block2的开头为”a student.”, InputSplit会划分出一个逻辑的split, 标记split的结尾处为block2的”a student.”。也就是说包含了另外一个block2的部分开头。一个split对应一个map。也就是说block是hdfs上的单位,split是map输入的单位,split可能会夸block.
2. RecordReader. 会根据split的逻辑划分将记录一条条读入,并且以KV对的形式输出给map.
https://www.cnblogs.com/gwgyk/p/3997734.html

在Hadoop1.x中默认大小是64M,Hadoop2.x中大小默认为128MB
set dfs.default.blocksize=67108864 设置block size为64MB
set mapred.reduce.tasks=100; 设置reduce个数为100,默认为1。太少,单个压力太大太慢,试错代价大。太多,shuffle小文件太多,影响性能。

Combiner
Combiner在溢写时根据Key进行合并,对SUM,MAX等运算在性能上有很大帮助 (减少Shuffle时数据的copy量和reduce数据的处理量)。
但是Combiner使用时也要注意。比如求平均AVG就不能用。在每个Map求完平均后再给reducer求平均,数据会算错。只能在map里不做任何合并,将所map同一分区的所有kv对传给reduce一起做

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值