Hadoop字符转码的实现

最新推荐文章于 2023-04-06 20:23:01 发布

冰火两重天

最新推荐文章于 2023-04-06 20:23:01 发布

阅读量1.4k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sprayabc/article/details/8868016

版权

在hadoop中最常见的就是Text，而Text对象是继承了BinaryComparable且实现了WritableComparable接口。在Text内部封装了原始二进制数据byte数组和长度，并且提供了编码解码的工具类，Text的toString()方法是已经解码过的。

今天在工作中遇到一个问题，我的一个job输出格式为TextInputFormat，但是在另一个job读取的时候总是读取的数据不对，new String(text.getBytes())，使用的是这个方法，后来看hadoop源码发现getBytes()返回的是未经解码的二进制流。

Hadoop默认使用的是UTF-8编码方式。在Hadoop使用过程中，需要将其他的编码方式进行转码以防止乱码的出现。在Hadoop中出现乱码的情景是TextFileInputFormat，即处理Text的情景。在这种情况下，Value一般是Text。为了实现转码我们看一下Text的实现。在Text中包含了源数据的byte数组以及其中数据的长度，这是原始数据，不经过编码的。在Text类中包含了CharsetEncoder和CharsetDecoder两个变量，这两个变量都是UTF-8编码。当把byte数据写到文件时(writeString方法)需要对其进行Encode，将其编码成UTF-8格式。当Text读入数据时(readString方法），用Decoder将其从UTF-8模式转码成Unicode。
在Map执行过程中，Text的byte数组是原始数据的byte数组，可以直接将该数组进行转码，具体实现如下：

protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
    byte[] valueBytes = value.getBytes();
    String result = new String(valueBytes, "GB2312");
    context.write(key, new Text(result));
}

冰火两重天

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

冰火两重天 CSDN认证博客专家 CSDN认证企业博客

码龄12年

113: 原创

17万+: 周排名

51万+: 总排名

50万+: 访问

: 等级

6841: 积分

128: 粉丝

26: 获赞

17: 评论

82: 收藏

私信

关注

热门文章

分类专栏

Java 17篇
大数据技术 23篇
Python 20篇
序列化机制 6篇
Java虚拟机 27篇
数据结构与算法 8篇
网络编程 15篇
多线程 8篇
Java NIO 10篇
Java工具 3篇
Java JNDI 1篇
Java 调优 6篇
ASM字节码框架 6篇
AOP 5篇
JMX 7篇
storm 3篇
机器学习 18篇
R语言 6篇
Linux命令工具 5篇
HTTP协议 7篇
web服务器 9篇
Java高级特性 7篇
Scala 8篇

最新评论

Java sasl指南
我说假如: 6年过去了。。。。
R语言之关于保存pdf,png
人何苦要抱着清醒进睡: pdf(file="forest.pdf", width = 7, #图片的宽度 height = 6, #图片的高度 ) ggforest(multiCox, main = "Hazard ratio", cpositions = c(0.02,0.22, 0.4), fontsize = 0.7, refLabel = "reference", noDigits = 2) dev.off() 请问大神这个怎么改
scala并发编程
誉儿: val sum = (0 /: (0 until partitions)) {} 是什么语法？
职业规划
兔九哥: 您好，看了您的计划觉得自己真是连入门都没有做到，所以想请教您几个问题。我现在大三，也正在学习java，也对大数据这方面比较感兴趣，以后也想往这个方面去发展，请问像我这样的初学者应该如何确定自己该学习那些内容呢？还有学习java和linux有什么联系么？非常期待您的回复！
R语言基本语法
kezhenw: 请问 R语言在读取大文本时出现内存溢出错误该如何解决？？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。