SequenceFileInputFormat区别TextInputFormat

最新推荐文章于 2024-06-05 00:20:32 发布

报恩的猫

最新推荐文章于 2024-06-05 00:20:32 发布

阅读量3.4k

点赞数

分类专栏： Hadoop

Hadoop 专栏收录该内容

43 篇文章 0 订阅

订阅专栏

本文介绍了Hadoop MapReduce中InputFormat的作用及配置参数，并详细解释了两种常用的InputFormat：TextInputFormat和SequenceFileInputFormat的工作原理。

摘要由CSDN通过智能技术生成

通过InputFormat，Hadoop可以：

l 检查MapReduce输入数据的正确性；

l 将输入数据切分为逻辑块InputSplit，这些块会分配给Mapper；

l 提供一个RecordReader实现，Mapper用该实现从InputSplit中读取输入的<K,V>对。

通过FileInputFormat。下面几个参数可以用于配置FileInputFormat：

l mapred.input.pathFilter.class：输入文件过滤器，通过过滤器的文件才会加入InputFormat；

l mapred.min.split.size：最小的划分大小；

l mapred.max.split.size：最大的划分大小；

l mapred.input.dir：输入路径，用逗号做分割。

java.lang.Object
  org.apache.hadoop.mapreduce.InputFormat<K,V>
      org.apache.hadoop.mapreduce.lib.input.FileInputFormat<K,V>
          org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat<K,V>


java.lang.Object
  org.apache.hadoop.mapreduce.InputFormat<K,V>
      org.apache.hadoop.mapreduce.lib.input.FileInputFormat<LongWritable,Text>
          org.apache.hadoop.mapreduce.lib.input.TextInputFormat

TextInputFormat: 默认的输入格式，行号为Key，文件中该行的内容为value

SequenceFileInputFormat: key-value 对的二进制文件

	通过如下方式进行设置使用：

 	job.setInputFormatClass(SequenceFileInputFormat.class);
   	job.setOutputFormatClass(SequenceFileOutputFormat.class);

报恩的猫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录