hive orc varchar乱码问题

最新推荐文章于 2024-07-03 13:19:29 发布

appleYQL

最新推荐文章于 2024-07-03 13:19:29 发布

阅读量967

点赞数

分类专栏： hive 文章标签： hive spark big data

本文链接：https://blog.csdn.net/appleYQL/article/details/120804636

版权

hive 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1、问题产生的原因

作者使用的cdh版本是6.2.0，hive版本是2.1.0，原因是hive查询orc格式的varchar字段的时候没有指定编码，使用了默认编码，默认的编码不是utf-8引起的，具体可以参考这篇大佬源码追踪的文章，链接是:hive中文字段乱码排查

2、解决方法

2.1 hive on mapreduce解决

其实上面的链接有大佬给出的解决方法，有挺多的，可以重新打包，不过比较简单和推荐的还是直接在cm界面修改一下配置文件，指定am，maptask和reducetask的运行编码格式
在后面加上: -Dfile.encoding=utf-8 就可以了

2.2 hive on spark的解决

思路是一样的，就是指定作业的运行编码为utf-8，避免使用默认编码就行。
在cm的管理界面，进到spark的配置，搜索spark- 找到高级代码客户端配置 spark-default.conf，文本框输以下配置：

spark.executor.extraJavaOptions=-Dfile.encoding=UTF-8 -Dsun.jnu.encoding=UTF-8
spark.driver.extraJavaOptions=-Dfile.encoding=UTF-8 -Dsun.jnu.encoding=UTF-8

appleYQL

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive orc varchar乱码问题

1、问题产生的原因作者使用的cdh版本是6.2.0，hive版本是2.1.0，原因是hive查询orc格式的varchar字段的时候没有指定编码，使用了默认编码，默认的编码不是utf-8引起的，具体可以参考这篇大佬源码追踪的文章，链接是:hive中文字段乱码排查2、解决方法2.1 hive on mapreduce解决其实上面的链接有大佬给出的解决方法，有挺多的，可以出现打包，不过比较简单和推荐的还是直接在cm界面修改一下配置文件，指定am，maptask和reducetask的运行编码格式在后面
复制链接

扫一扫