InputFormat 接口
作用 :读取数据
- 数据分割(Data Splits):作用: 分割数据,保证句子的完整性
- 记录读取器 ( Record Reader): 实际上每个split包含**后一个Block中开头的数据(解决记录跨block问题)**记录文件的开始位置和结束位置
Partitioner
:决定数据由哪个reducer处理,从而进行分区。
比如采用hash法,有n个reduce。用key对n取模,返回m 而生成{partition,key,value}
MemoryBuffer
内存缓冲区,每个map的结果和partition处理的key value结果都保存在缓存中。
缓冲区大小:默认100M
Spill
- 内存缓冲区达到阈值时, 溢写spill线程锁住80M的缓冲区,开始将数据写到本地磁盘中,然后释放内存。
- 每次溢写都会生成一个数据文件,溢出的数据到磁盘前,会对数据进行key排序sort以及合并 conbiner
- 数据经过处理之后,会比之前的数据大,因此hadoop1.0 block只有64,内存溢写是100兆
- 发送相同的Reduce的key数量,会拼接到一起,减少partition的索引数量
Sort
- 在缓冲区对数据按照key排序
Conbiner
- 数据合并,相同的key的数据,value值合并,减少输出传输量
- 相当提前做reduce的工作,提高传输效率
- 不能乱用,例如求中值的时候