最近在Hadoop上处理有中文的gbk编码文本数据,发现会出现乱码。在网上搜索了一下,基本上都是说要重新做一个TextOutputFormat,觉得比较麻烦。所以,自己分析了一下TextOutputFormat的源码,其实关键就在LineReader和Text两个类上。
public class LineReader
{
private static final int DEFAULT_BUFFER_SIZE = 64 * 1024;
private int bufferSize = DEFAULT_BUFFER_SIZE;
private InputStream in;//注意这里,其实还是在以二进制的方式在读数据的
......
}
public class Text extends BinaryComparable implements WritableComparable<BinaryComparable>
{
......
private byte[] bytes;//注意这里,其实读到Text里面的数据还是二进制保存的
private int length;
.......
public String toString()
{
try {
return decode(bytes, 0, length);//注意:这里把二进制数据,用utf8编码来解析了,所以会出错。
} catch (CharacterCodingException e) {
throw new RuntimeException("Should not have happened " + e.toString());
}
}
}
所有到Text这里而言,gbk的中文数据,是没有出现问题的,出现问题的toString这里:
所以,这样调用是不可以的:
//Text text=.......
String line=text.toString();//这样得到的就是乱码了;
应该这样调用:
String line=new String(text.getBytes(),0,val.getLength(),"gbk");
这样处理感觉就简单多了。总之:二进制数据是不存在乱码问题的,hadoop对所有的数据其实都是二进制读写的,文本读写只不过是一个概念,方便使用,关键的问题在于如何“解析”读取到的二进制数据。
对于写操作,基本可以采用对应的方式处理。