input split 切片

https://blog.csdn.net/dr_guo/article/details/51150278

https://blog.csdn.net/samhacker/article/details/23089157

输入分片(Input Split)

在进行map计算之前,mapreduce会根据输入文件计算输入分片(input split),每个输入分片(input split)针对一个map任务,输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据位置的数组。

  • 记录数据位置的数组用于mapreduce将map任务尽量放在切片附近
  • 切片长度用来排序,map任务会优先处理最大的切片

切片不需要直接处理,由inputFormat创建,通过getSplits()计算切片,map任务将切片传给InputFormat的getRecordReader,getRecordReader将记录转化为KV对传给map任务

getsplit()计算切片的过程

  • 通过listStatus()获取输入文件列表files,会遍历输入目录的子目录,并过滤掉部分文件(例如文件_success)
  • 获取所有文件大小totalsize
  • 计算goalSize=totalsize/numMaps,numMaps时用户指定的map数量(默认是1)
  • files中取出一个file
  • 计算splitSize,SplitSize=max(minSplitSzie,min(file.block,goalSize)),minsplitSize默认大小是1B。要使设置的numMaps生效,即min(file.block,goalSize)需要选择goalSize,即设置的numMaps要大于totalsize/file.block才会生效。
  • 根据splitSize大小将文件分片,在分片的时候,如果剩余的大小不大于SplitSize*1.1,会将该区域作为一个分片,是为了放置map处理的数据太小。
  • 将file的分片加入到splits中
  • 直到左右的files遍历完,返回splits

如何避免切片:

将切片的最小值设置为大于文件的大小

使用FileInputFormat的具体子类,重写isSplitable()方法,将返回值设置为false。

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值