Hadoop处理中文的简易方法

     最近在Hadoop上处理有中文的gbk编码文本数据,发现会出现乱码。在网上搜索了一下,基本上都是说要重新做一个TextOutputFormat,觉得比较麻烦。所以,自己分析了一下TextOutputFormat的源码,其实关键就在LineReader和Text两个类上。

public class LineReader

 {

  private static final int DEFAULT_BUFFER_SIZE = 64 * 1024;
  private int bufferSize = DEFAULT_BUFFER_SIZE;
  private InputStream in;//注意这里,其实还是在以二进制的方式在读数据的

  ......

}

public class Text extends BinaryComparable implements WritableComparable<BinaryComparable>

{

  ......

  private byte[] bytes;//注意这里,其实读到Text里面的数据还是二进制保存的
  private int length;

  .......

  public String toString()

 {
    try {
      return decode(bytes, 0, length);//注意:这里把二进制数据,用utf8编码来解析了,所以会出错。
    } catch (CharacterCodingException e) {
      throw new RuntimeException("Should not have happened " + e.toString());
    }
  }

所有到Text这里而言,gbk的中文数据,是没有出现问题的,出现问题的toString这里:

所以,这样调用是不可以的:

//Text text=.......

String line=text.toString();//这样得到的就是乱码了;

应该这样调用:

String line=new String(text.getBytes(),0,val.getLength(),"gbk");

这样处理感觉就简单多了。总之:二进制数据是不存在乱码问题的,hadoop对所有的数据其实都是二进制读写的,文本读写只不过是一个概念,方便使用,关键的问题在于如何“解析”读取到的二进制数据。

 

对于写操作,基本可以采用对应的方式处理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值