在Hadoop中处理输入的CSV文件

最新推荐文章于 2023-04-03 14:03:42 发布

hkmaike

最新推荐文章于 2023-04-03 14:03:42 发布

阅读量1.4w

点赞数 1

分类专栏： hadoop

hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

No Reply , Posted in Hadoop on December 2, 2012

在Hadoop中，InputFormat类用来生成可供Mapper处理的<key, value>键值对。当数据传送给Mapper时，Mapper会将输入分片传送到InputFormat上，InputFormat调用getRecordReader()方法生成RecordReader，RecordReader再创建可供map函数处理的键值对<K1, V1>。

Hadoop预定义了多种方法将不同类型的输入数据转化为map能够处理的键值对。比如，TextInputFormat，Hadoop中默认的输入方法，会将每行数据生成一条记录，其中key值为每条记录在分片中的字节偏移量，value则为每行的内容。

在Hadoop预定义的InputFormat中，并没有处理CSV文件的方法。CSV文件的本质其实是用逗号分隔开的文本文件。一种很直观的处理方法是：将CSV文件作为文本文件处理，使用TextInputFormat将文件按行传入map函数，在map函数中再按照CSV文件的格式进行处理。但这样很容易将数据格式的处理逻辑与业务处理逻辑混淆在一起，并且出现很多copy-and-pasted的代码。

实际上，可以写一个自己的InputFormat以及RecordReader类，专门用来处理CSV文件的输入，直接传递给map函数解析后的数据。

1 数据结构

我们传递给map函数一个ArrayWritable（A Writable for arrays containing instances of a class），元素类型为Text，即CSV文件每一行各个字段的数据。数据结构如下：

代码1：TextArrayWritable.java


  
  public class TextArrayWritable extends ArrayWritable {
  public TextArrayWritable() {
    super(Text.class);
  }
 
  public TextArrayWritable(Text[] strings) {
    super(Text.class, strings);
  }
}

2 CSVInputFormat

FileInputFormat是所有使用文件作为其数据源的InputFormat实现的基类。它提供了两个功能：一是定义哪些文件包含在一个作业的输入中，另一个是为输入文件生成分片（Input Splits）。而把分片分割成记录的事情交由其子类来完成。所以CSVInputFormat类的实现上，同样是继承InputFormat类，并只需要简单的重写createRecordReader和isSplitable即可。

代码2：CSVInputFormat.java


  
  public class CSVInputFormat 
	extends FileInputFormat<LongWritable, TextArrayWritable>{
  public static final String CSV_TOKEN_SEPARATOR_CONFIG 
		= "csvinputformat.token.delimiter";
  
  @Override
  protected boolean isSplitable(JobContext context, Path filename) {
    CompressionCodec codec = 
        new CompressionCodecFactory(context.getConfiguration())
        .getCodec(filename);
    return codec == null;
  }
 
  @Override
  public RecordReader<LongWritable, TextArrayWritable> createRecordReader(
      InputSplit split, TaskAttemptContext context) 
		throws IOException, InterruptedException {
    String csvDelimiter = context.getConfiguration()
			.get(CSV_TOKEN_SEPARATOR_CONFIG);
    Character separator = null;
    if (csvDelimiter != null && csvDelimiter.length() == 1) {
      separator = csvDelimiter.charAt(0);
    }
    return new CSVRecordReader(separator);
  }
}

其中csvinputformat.token.delimiter是可在配置文件中配置的CSV输入文件分隔符，createRecordReader完成的工作只是从配置文件中得到分隔符，调用真正对CSV文件分片进行处理，并生成键值对的CSVRecordReader函数，并返回RecordReader对象。

3 CSVRecordReader

对于CSVRecordReader，要实现的功能无非就是将CSV文件中每一行的各字段提取出来，并将各字段作为TextArrayWritable类型的数据结构传递给map函数。

在Hadoop中有一个LineRecordReader类，它将文本文件每一行的内容作为值返回，类型为Text。所以可以直接在CSVRecordReader中使用LineRecordReader，将LineRecordReader返回的每一行再次进行处理。在CSV文件的处理上，这里用到了OpenCSV对CSV文件的每一行进行解析，具体可参见这里。

下面是CSVRecordReader的实现代码。除了CSV文件的解析、nextKeyValue()方法和getCurrentValue()方法外，大部分方法都直接调用LineRecordReader实例的相应方法。毕竟我们是踩在巨人的肩膀上继续前进嘛。O(∩_∩)O~

代码3：CSVRecordReader.java


  
  public class CSVRecordReader 
	extends RecordReader<LongWritable, TextArrayWritable> {
 
  private LineRecordReader lineReader;
  private TextArrayWritable value;
  private CSVParser parser;
  
  // 新建CSVParser实例，用来解析每一行CSV文件的每一行
  public CSVRecordReader(Character delimiter) {
    this.lineReader = new LineRecordReader();
    if (delimiter == null) {
      this.parser = new CSVParser();
    }
    else {
      this.parser = new CSVParser(delimiter);
    }
  }
  
  // 调用LineRecordReader的初始化方法，寻找分片的开始位置
  @Override
  public void initialize(InputSplit split, TaskAttemptContext context) 
		throws IOException, InterruptedException {
    lineReader.initialize(split, context);
  }
 
  // 使用LineRecordReader来得到下一条记录（即下一行）。
  // 如果到了分片（Input Split）的尾部，nextKeyValue将返回NULL
  @Override
  public boolean nextKeyValue() 
		throws IOException, InterruptedException {
    if (lineReader.nextKeyValue()) {
      //如果有新记录，则进行处理
      loadCSV();
      return true;
    }
    else {
      value = null;
      return false;
    }
  }
 
  @Override
  public LongWritable getCurrentKey() throws IOException,
      InterruptedException {
    return lineReader.getCurrentKey();
  }
 
  @Override
  public TextArrayWritable getCurrentValue() throws IOException,
      InterruptedException {
    return value;
  }
 
  @Override
  public float getProgress() throws IOException, InterruptedException {
    return lineReader.getProgress();
  }
 
  @Override
  public void close() throws IOException {
    lineReader.close();
  }
 
  // 对CSV文件的每一行进行处理
  private void loadCSV() throws IOException {
    String line = lineReader.getCurrentValue().toString();
    // 通过OpenCSV将解析每一行的各字段
    String[] tokens = parser.parseLine(line);
    value = new TextArrayWritable(convert(tokens));
  }
  
  // 将字符串数组批量处理为Text数组
  private Text[] convert(String[] tokens) {
    Text[] t = new Text[tokens.length];
    for (int i = 0; i < t.length; i++) {
      t[i] = new Text(tokens[i]);
    }
    return t;
  }
}

4 简单的应用

用于处理CSV文件输入的InputFormat已经写完了，现在构造一个简单的应用场景，来试验下这个CSVInputFormat。

假设有这样一些数据，每一列第一个字段为一个标识，后面为随机产生的数字，标识各不相同，求每一行标识后的数字之和并输出，输出格式为：每一行为标识和数字和。

由于标识没有重复，并且逻辑比较简单，这里只写一个Mapper即可，不需要Reducer。

代码4：CSVMapper.java


  
  public class CSVMapper 
	extends Mapper<LongWritable, TextArrayWritable, Text, IntWritable> {
  @Override
  protected void map(LongWritable key, TextArrayWritable value, Context context)
      throws IOException, InterruptedException {
    String[] values = value.toStrings();
    int sum = 0;
    Text resultKey = new Text(values[0]);
    for (int i = 1; i < values.length; i++) {
      sum = sum + Integer.valueOf(values[i].trim());
    }
    IntWritable resultValue = new IntWritable(sum);
    context.write(resultKey, resultValue);
  }
}

在作业的提交部分，由于没有Reducer，所以将ReduceTask设置为了0

代码5：JustRun.java


  
  public class JustRun extends Configured implements Tool{  
  @Override
  public int run(String[] args) throws Exception {
    Configuration conf = new Configuration();
    
    Job job = new Job(conf);
    job.setJobName("CSVTest");
    job.setJarByClass(JustRun.class);
    
    job.setMapperClass(CSVMapper.class);
    
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    job.setInputFormatClass(CSVInputFormat.class);
    
    job.setNumReduceTasks(0);
 
    FileInputFormat.setInputPaths(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    return job.waitForCompletion(true) ? 0 : 1;
  }
public static void main(String[] args) throws Exception {
    int ret = ToolRunner.run(new JustRun(), args);
    System.exit(ret);
  }
}

执行完毕后，输出如下，跟预想是一致的。

好了，这就是利用InputFormat对CSV文件的处理过程。除了CSV文件，还可根据处理数据的类型，写出更多的InputFormat。同时，我们还可以利用OutputFormat输出需要的格式。

转自

http://bukp.me/hadoop/work-with-csv-input-file-in-hadoop.html

hkmaike

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
3
评论
在Hadoop中处理输入的CSV文件

No Reply , Posted inHadoop on December 2, 2012 在Hadoop中，InputFormat类用来生成可供Mapper处理的键值对。当数据传送给Mapper时，Mapper会将输入分片传送到InputFormat上，InputFormat调用getRecordReader()方法生成RecordReader，RecordReader再创建可供map
复制链接

扫一扫