Hadoop文本转换为序列文件

最新推荐文章于 2022-10-12 13:27:38 发布

fansy1990

最新推荐文章于 2022-10-12 13:27:38 发布

阅读量4.1k

点赞数 1

分类专栏： hadoop mapreduce 文章标签： hadoop序列文件

本文链接：https://blog.csdn.net/fansy1990/article/details/9635575

版权

本文介绍了如何将文本文件转换为Hadoop的序列文件，主要方法包括直接读写和通过编写job任务设置输出格式。作者在尝试过程中遇到问题，并提出关于Map输出格式的疑问。

摘要由CSDN通过智能技术生成

在以前使用hadoop的时候因为mahout里面很多都要求输入文件时序列文件，所以涉及到把文本文件转换为序列文件或者序列文件转为文本文件（因为当时要分析mahout的源码，所以就要看到它的输入文件是什么，文本比较好看其内容）。一般这个有两种做法，其一：按照《hadoop权威指南》上面的方面直接读出序列文件然后写入一个文本；其二，编写一个job任务，直接设置输出文件的格式，这样也可以把序列文件读成文本（个人一般采用这样方法）。时隔好久，今天又重新试了下，居然不行了？，比如，我要编写一个把文本转为序列文件的java程序如下：

package mahout.fansy.canopy.transformdata;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;
import org.apache.mahout.common.AbstractJob;
import org.apache.mahout.math.RandomAccessSparseVector;
import org.