MapReduce 的格式输入----SequenceFileInputFormat ---源码分析

最新推荐文章于 2021-04-12 08:50:51 发布

缘定三石

最新推荐文章于 2021-04-12 08:50:51 发布

阅读量898

点赞数

分类专栏： Hadoop实战文章标签： SequenceFileInputFor mapreduce Hadoop

本文链接：https://blog.csdn.net/tian_qing_lei/article/details/77456740

版权

本文详细介绍了如何使用SequenceFileInputFormat处理MapReduce的二进制输入，通过分析MaxTempMapper、MaxTempReducer及App的代码，展示了如何配合SequenceFileInputFormat进行数据处理。同时，源码跟踪揭示了从获取切片信息到创建SequenceFileRecordReader，再到Mapper执行过程的关键步骤。

摘要由CSDN通过智能技术生成

   MapReduce不仅可以处理文本数据，还可以处理二进制数据。 
 

   Hadoop顺序文件存储格式是二进制的键-值对序列，使用顺序文件作为MapReduce的输入，可以使用SequenceFileInputFormat。键-值对是由顺序文件格式决定，只需要保证map的输入格式正确，例如顺序文件的格式是InWritable-Intwritable,那么Mapper的输入格式也一样。 
 

 
  1、 
  MaxTempMapper

package hadoop.mr.sequenfileinputformat;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * MaxTempMapper
 */
public class MaxTempMapper extends Mapper<IntWritable, IntWritable, IntWritable,IntWritable> {

   protected void map(IntWritable key, IntWritable value, Context context) throws IOException, InterruptedException {


         context.write(key, value);

   }
}