hadoop2.6.0中自定义分割符

最新推荐文章于 2021-05-23 23:27:10 发布

weixin_30520015

最新推荐文章于 2021-05-23 23:27:10 发布

阅读量143

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/renhq/p/5334690.html

版权

最近在学习hadoop，用的hadoop2.6.0

然后在学习编写mapreduce程序时，发现默认对文件的输入是采用每行进行分割，下面来分析下改变这个分割方式的办法：

来看看默认是怎样实现的：

如果不使用Job的setInputFormatClass()设置，默认的InputFormat类是使用TextInputFormat类

TextInputFormat类是继承自FileInputFormat

FileInputFormat 实现了 InputFormat接口

TextInputFormat中可以看到，在getRecordReader函数中调用了LineRecordReader这个类。我们注意观察在传入的参数中有一个delimiter参数，这个参数就是用来指定分割符的（具体可以查看LineRecordReader中实现对文件分割的实现），所以我们可以自己定义一个类MyInputFormat继承FileInputFormat类然后将

String delimiter = context.getConfiguration().get(
"textinputformat.record.delimiter");

改为：String delimiter = "END";

“END”即指定的分隔符。