hadoop中文乱码问题

最新推荐文章于 2023-06-06 10:07:45 发布

iteye_5080

最新推荐文章于 2023-06-06 10:07:45 发布

阅读量1.7k

点赞数

分类专栏： hadoop 文章标签：大数据 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iteye_5080/article/details/82615943

版权

hadoop 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.hadoop默认编码上utf-8
2.如果输入文件如果是保存成utf-8格式，则wordcount.java程序中不需要转码，输出文件也是uft-8文件格式；
如果输出文件格式为其他格式，则在wordcount.java程序中需要对其转码，如果不转换编码，在程序打钱出输入文件内容时中文显示为乱码，转到GBK后，输出文件中的内容自动生成到输出文件时格式为utf-8.
3.在Xshell中查看输出文件时，使用命令/home/hadoop/hadoop/bin/hadoop fs -cat /wanghongen/demo/fileout/wordcount_out1/part-r-00000前，要将Xshell客户端的encoding编码设置为utf-8才能正常看到输出文件的内容。

public static Text transformText(Text text, String encoding) {
String value = null;
try {
value = new String(text.getBytes(), 0, text.getLength(), encoding);
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
return new Text(value);
}

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop中文乱码问题

1.hadoop默认编码上utf-82.如果输入文件如果是保存成utf-8格式，则wordcount.java程序中不需要转码，输出文件也是uft-8文件格式；如果输出文件格式为其他格式，则在wordcount.java程序中需要对其转码，如果不转换编码，在程序打钱出输入文件内容时中文显示为乱码，转到GBK后，输出文件中的内容自动生成到输出文件时格式为utf-8.3.在Xshell中查...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。