HIve 使用MapReduce查询计算引擎，输出结果汉字显示乱码

最新推荐文章于 2024-01-12 00:22:59 发布

风语飘摇

最新推荐文章于 2024-01-12 00:22:59 发布

阅读量802

点赞数

分类专栏： hive

本文链接：https://blog.csdn.net/swing2008/article/details/110070410

版权

hive 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

HIve 使用MapReduce查询计算引擎，输出结果汉字显示乱码

在配置MultiDelimitSerDe后，建立hive多分隔符表，select * from tab1 正常显示汉字；但是select s2,substr(s2,3) from db_mul.multi_delimiter_test 通过MR 引擎处理后，查询结果出现乱码。建表语句如下： create table db_mul.multi_delimiter_test( s1 string, s2 string, s3 string) ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.MultiDelimitSerDe' WITH SERDEPROPERTIES ("field.delim"="@#$" ) stored as textfile; 查询结果：select s2,substr(s2,3) from db_mul.multi_delimiter_test +-------------+-----------+ | s2 | _c1 | +-------------+-----------+ | test1name? | st1name? | | test2name? | st2name? | | test3name? | st3name? | +-------------+-----------+

解决方案：

由于MR和Hive的编码方式不同导致的。默认MR是使用GBK的编码方式，Hive是使用UTF8。所以当MR处理中文字符数据的时候，没有正确的获取数据段，导致了乱码。

可以在query中设置 set mapreduce.map.java.opts="-Dfile.encoding=UTF-8"; set mapreduce.reduce.java.opts="-Dfile.encoding=UTF-8"; 再运行MR的任务就没有问题了。

风语飘摇

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
HIve 使用MapReduce查询计算引擎，输出结果汉字显示乱码

HIve 使用MapReduce查询计算引擎，输出结果汉字显示乱码在配置MultiDelimitSerDe后，建立hive多分隔符表，select * from tab1 正常显示汉字；但是select s2,substr(s2,3) from db_mul.multi_delimiter_test 通过MR 引擎处理后，查询结果出现乱码。建表语句如下： create table db_mul.multi_delimiter_test( s1 string, s2 string, s3 string)
复制链接

扫一扫

专栏目录