Hadoop编程模型组件--InputFormat

Hadoop中的InputFormat接口:
InputFormat接口主要的任务是对输入的原始数据进行切分并转换成<K,V>格式的数据,它主要完成两个功能:
1.通过getSplite()方法对原始数据进行切分,得到若干个InputSplite,这里的切分是指逻辑上的切分,即确定每个Splite的起始地址和长度而并没有在物理上进行划分;
2.通过getRecordReader ()方法将每一个InputSplite解析为<K,V>格式的数据并返回一个RecordReader对象,map()根据该对象逐一的读取记录进行处理;
FileInputFormat类
在继承了InputFormat接口的若干个类中,最常用的是FileInputFormat类,它主要实现了一个统一的文件切块方法,getSplite()方法,该方法主要完成两个功能:
1.计算每个Splite块的大小SpliteSize,在老版的HadoopAPI中,这个数值与三个参数有关:minSize:由配置文件所设置的最小块,默认为1;goalSize:用文件总大小除以用户设定的map数得到的值;blockSize:文件的物理存储块大小,默认为64MB;这样SpliteSize的计算公式为:
SpliteSize=max{minSize,min{goalSize,blockSize}};
在新版的API中,用maxSize这一参数取代了goalSize参数,maxSize与minSize一样,也由配置文件确定,这样分块的大小就与map数无关。
2.确定host,在确定了SpliteSize的大小之后,需要确定每个Splite的元数据,格式是<file,start,length,host>,其中host最难确定,它与文件本地化息息相关,Hadoop把文件本地化的程度分成三个层次:本节点,本机架,其他机架。它采用一个很简单的启发式算法在确定Host,Hadoop先依据数据量的多少对所有的机架(rack)进行排序,然后对每个机架上的节点依据同样的规则进行排序,最后选择排名前N的节点作为Host,N是每个文件的副本数。
TextInputFormat与SequenceInputFormat
这两个类都继承自FileInputStream,他们在FileInputStream实现了getSplite方法的基础上,又各自实现了自己的getRecordReader方法。其中TextInputFormat所实现的规则是:对一个InputSplite数据,以每一行做一个划分点,以该行的内容作为value,而以该行的起始地址相对于整个文件首地址的偏移量作为KEY,这样得到的结果就是<k,v>形式数据。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值