Hadoop处理中文的简易方法

wangjx798

于 2011-04-29 21:00:00 发布

阅读量1.1k

点赞数

文章标签： hadoop string buffer class byte

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangjx798/article/details/6372837

版权

最近在Hadoop上处理有中文的gbk编码文本数据，发现会出现乱码。在网上搜索了一下，基本上都是说要重新做一个TextOutputFormat，觉得比较麻烦。所以，自己分析了一下TextOutputFormat的源码，其实关键就在LineReader和Text两个类上。

public class LineReader

{

private static final int DEFAULT_BUFFER_SIZE = 64 * 1024;
private int bufferSize = DEFAULT_BUFFER_SIZE;
private InputStream in;//注意这里，其实还是在以二进制的方式在读数据的

......

}

public class Text extends BinaryComparable implements WritableComparable<BinaryComparable>

{

......

private byte[] bytes;//注意这里，其实读到Text里面的数据还是二进制保存的
private int length;

.......

public String toString()

{
    try {
      return decode(bytes, 0, length);//注意：这里把二进制数据，用utf8编码来解析了，所以会出错。
    } catch (CharacterCodingException e) {
      throw new RuntimeException("Should not have happened " + e.toString());
    }
}

}

所有到Text这里而言，gbk的中文数据，是没有出现问题的，出现问题的toString这里：

所以，这样调用是不可以的：

//Text text=.......

String line=text.toString();//这样得到的就是乱码了；

应该这样调用：

String line=new String(text.getBytes(),0,val.getLength(),"gbk");

这样处理感觉就简单多了。总之：二进制数据是不存在乱码问题的，hadoop对所有的数据其实都是二进制读写的，文本读写只不过是一个概念，方便使用，关键的问题在于如何“解析”读取到的二进制数据。

对于写操作，基本可以采用对应的方式处理。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。