Hadoop字符转码的实现

最新推荐文章于 2021-02-03 09:35:55 发布

weixin_34186128

最新推荐文章于 2021-02-03 09:35:55 发布

阅读量125

点赞数

文章标签：大数据 python

原文链接：https://my.oschina.net/sdzzboy/blog/164121

版权

2019独角兽企业重金招聘Python工程师标准>>>

Hadoop默认使用的是UTF-8编码方式。在Hadoop使用过程中，需要将其他的编码方式进行转码以防止乱码的出现。

在Hadoop中出现乱码的情景是TextFileInputFormat，即处理Text的情景。在这种情况下，Value一般是Text。为了实现转码我们看一下Text的实现。在Text中包含了源数据的byte数组以及其中数据的长度，这是原始数据，不经过编码的。在Text类中包含了CharsetEncoder和CharsetDecoder两个变量，这两个变量都是UTF-8编码。当把byte数据写到文件时(writeString方法)需要对其进行Encode，将其编码成UTF-8格式。当Text读入数据时(readString方法），用Decoder将其从UTF-8模式转码成Unicode。

在Map执行过程中，Text的byte数组是原始数据的byte数组，可以直接将该数组进行转码，具体实现如下：

protected void map(LongWritable key, Text value, Context context)

throws IOException, InterruptedException {

byte[] valueBytes = value.getBytes();

String result = new String(valueBytes, "GB2312");

context.write(key, new Text(result));

}

转载于:https://my.oschina.net/sdzzboy/blog/164121