从CSV文件导入Hive出现中文乱码问题解决

最新推荐文章于 2024-04-16 12:51:44 发布

glimmer_it

最新推荐文章于 2024-04-16 12:51:44 发布

阅读量2.5k

点赞数 3

关于HIVE中文乱码问题的解决办法，网上有很多帖子，然而很多都是基于LINUX终端显示字符的修改，其实上对于一些条件下的HIVE中文乱码问题是无法解决的，如从CSV文件导入到HIVE中出现的中文乱码问题。

大家都知道，HIVE原生的字符编码是采用UTF-8方式的，这是支持中文的。然而在从ORACLE导出CSV文件，注入到HIVE表中的时候，就发现输入时出现中文乱码。按照HIVE中文乱码的解决思路(基于系统字符编码的修改方式)总是没有成功。

后来考虑到HIVE将数据是存放在HDFS上的，并以序列化的方式存在，因此应该考虑HDFS中文乱码的问题，这一查，资料还不少。也看到了核心的问题所在： hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式，但是对于中文的输出window系统默认的是GBK，有些格式文件例如CSV格式的文件用excel打开输出编码为没有BOM的UTF-8文件时，输出的结果为乱码，只能由UE或者记事本打开才能正常显示。因此将hadoop默认输出编码更改为GBK成为非常常见的需求。

考虑到这个问题，于是想着在HIVE中序列化的时候需要指定一下字符编码，终于找到相关的解决思路，这是HIVE issue解决办法中找到的。https://issues.apache.org/jira/browse/HIVE-7142。

依照这个文档的说明，对指定的表进行设置，即设置序列化编码为GBK，以WINDOW拷贝导入的数据编码相匹配。

ALTER TABLE ** SET SERDEPROPERTIES ('serialization.encoding'='GBK');

通过这样设置，果然实现一直困扰多时的HIVE中文乱码问题。

转自：http://blog.csdn.net/sparkexpert/article/details/50277259

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
从CSV文件导入Hive出现中文乱码问题解决

关于HIVE中文乱码问题的解决办法，网上有很多帖子，然而很多都是基于LINUX终端显示字符的修改，其实上对于一些条件下的HIVE中文乱码问题是无法解决的，如从CSV文件导入到HIVE中出现的中文乱码问题。大家都知道，HIVE原生的字符编码是采用UTF-8方式的，这是支持中文的。然而在从ORACLE导出CSV文件，注入到HIVE表中的时候，就发现输入时出现中文乱码。按照HIVE中
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。