https://blog.csdn.net/dr_guo/article/details/51150278
https://blog.csdn.net/samhacker/article/details/23089157
输入分片(Input Split)
在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个map任务,输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据位置的数组。
- 记录数据位置的数组用于mapreduce将map任务尽量放在切片附近
- 切片长度用来排序,map任务会优先处理最大的切片
切片不需要直接处理,由inputFormat创建,通过getSplits()计算切片,map任务将切片传给InputFormat的getRecordReader,getRecordReader将记录转化为KV对传给map任务
getsplit()计算切片的过程
- 通过listStatus()获取输入文件列表files,会遍历输入目录的子目录,并过滤掉部分文件(例如文件_success)
- 获取所有文件大小totalsize
- 计算goalSize=totalsize/numMaps,numMaps时用户指定的map数量(默认是1)
- files中取出一个file
- 计算splitSize,SplitSize=max(minSplitSzie,min(file.block,goalSize)),minsplitSize默认大小是1B。要使设置的numMaps生效,即min(file.block,goalSize)需要选择goalSize,即设置的numMaps要大于totalsize/file.block才会生效。
- 根据splitSize大小将文件分片,在分片的时候,如果剩余的大小不大于SplitSize*1.1,会将该区域作为一个分片,是为了放置map处理的数据太小。
- 将file的分片加入到splits中
- 直到左右的files遍历完,返回splits
如何避免切片:
将切片的最小值设置为大于文件的大小
使用FileInputFormat的具体子类,重写isSplitable()方法,将返回值设置为false。