概述
InputFormat是做大数据分析的第一步,也就是解决数据输入格式问题,因为要处理的数据可能来源不同(文件,数据库,key/value等),意味着格式也就不同,那么InputFormat就是用来解决这个问题的,这样在做Map的时候才能做到数据的统一处理.
组件涉及到的作用
1.通过InputFormat可以解决数据输入不同格式问题
2.不同的数据格式其实多少影响分片,InputFormat的不同实现切片策略也不太一样
TextInputFormat(默认)
原理:
1.TextInputFormat是默认的输入格式处理
2.TextInputFormat的读取数据原理是每次读取一行,每一次读取分解到
Map中的key是行的字节偏移量,value是读取的一行内容
例子:
a.txt内容如下:
aa bb cc //key=0 value=aa bb cc
dd ee //key=9 value=dd ee
数据要求格式:
数据必