Hive 导入的中文数据出现乱码问题

1, hive支持的utf8,所以需要将文件的格式转换为对应的utf8。

2,

Hive中文乱码问题的解决办法,网上有很多帖子,然而很多都是基于Linux终端显示字符的修改,其实上对于一些条件下的HIVE中文乱码问题是无法解决的,如从CSV文件导入到HIVE中出现的中文乱码问题。

大家都知道,HIVE原生的字符编码是采用UTF-8方式的,这是支持中文的。然而在从Oracle导出CSV文件,注入到HIVE表中的时候,就发现输入时出现中文乱码。按照HIVE中文乱码的解决思路(基于系统字符编码的修改方式)总是没有成功。

后来考虑到HIVE将数据是存放在HDFS上的,并以序列化的方式存在,因此应该考虑HDFS中文乱码的问题,这一查,资料还不少。也看到了核心的问题所在: Hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式,但是对于中文的输出window系统默认的是GBK,有些格式文件例如CSV格式的文件用Excel打开输出编码为没有BOM的UTF-8文件时,输出的结果为乱码,只能由UE或者记事本打开才能正常显示。因此将Hadoop默认输出编码更改为GBK成为非常常见的需求。 
考虑到这个问题,于是想着在HIVE中序列化的时候需要指定一下字符编码,终于找到相关的解决思路,这是HIVE issue解决办法中找到的。https://issues.apache.org/jira/browse/HIVE-7142


依照这个文档的说明,对指定的表进行设置,即设置序列化编码为GBK,以WINDOW拷贝导入的数据编码相匹配。
ALTER TABLE ** SET SERDEPROPERTIES ('serialization.encoding'='GBK'); 通过这样设置,果然实现一直困扰多时的HIVE中文乱码问题。

 

3,

平时我们在将外部文件导入到hive表的过程中,要是原文件包含有中文的,导入就经常会出现乱码,这个时候我们可以事先把文件编码格式修改为utf8后再导入.

 

1.查看文件的当前的编码

[hadoop@master exter_data]$ file --mime-encoding provcode.TXT
provcode.TXT: iso-8859-1

 

2.转换为utf8格式

iconv -f iso-8859-1 -t utf-8 provcode.TXT -o provcode.TXT.utf8

 

3.然后进行导入

load data local inpath '/opt/hadoop/exter_data/provcode.TXT.utf8' into table xxx

  • 3
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。
根据引用\[1\]中的内容,你提供的是一个log4j的配置文件。log4j是一个用于记录日志的Java库。在这个配置文件中,设置了日志的输出级别为WARN,输出到控制台。引用\[2\]中提到了一个可能的问题,即hbase和hive版本不匹配。解决方案是将hbase版本降低到2.0.5。然而,你的问题是关于hive启动输出很多信息的。根据提供的信息,我无法确定具体的问题原因。可能的原因包括配置文件中的日志级别设置不正确,或者hive的日志配置有问题。你可以检查一下hive的日志配置文件,确保日志级别设置正确,并且查看具体的日志输出,以便更好地定位问题所在。 #### 引用[.reference_title] - *1* [Hive 3.1.2 启动时出现大量INFO问题解决](https://blog.csdn.net/Running_Husky_/article/details/129315806)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [解决使用hive启动打印大量INFO日志问题](https://blog.csdn.net/qq_46548855/article/details/113948405)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值