spark-beeline导出hive表数据到csv方法，乱码原因及解决方案

最新推荐文章于 2023-02-13 18:33:58 发布

SunWuKong_Hadoop

最新推荐文章于 2023-02-13 18:33:58 发布

阅读量3.3k

点赞数 1

分类专栏： hive spark

本文链接：https://blog.csdn.net/sunwukong_hadoop/article/details/87284904

版权

hive 同时被 2 个专栏收录

36 篇文章 0 订阅

订阅专栏

spark

30 篇文章 1 订阅

订阅专栏

亲测语句1：

spark-beeline -u jdbc:hive2://10.254.1.1:13002,10.254.1.1:13002,10.254.1.1:13002 
--verbose=true --outputformat=csv -e 
"select * from lqioc_ioc_ods.wghhjrkxx limit 100000">wghhjrkxx.csv

亲测语句2：

spark-beeline -u jdbc:hive2://10.254.1.1:13002,10.254.1.1:13002,10.254.1.1:13002 
--verbose=true --outputformat=csv -e 
"select concat_ws(',',zym,xh,xm,sswg,xb,csrq,sfzhm,hhf,yhzgxf,hjd,hjmlxz,
xzd,xzmlxz,wzsyy,fwcs,lxdh,lxsj,
mz,zzmm,xl,zylb,zy,hyzk,zjxy,jg,rhyzbs,wcyy,wcsj,wcqx,wcxz,createtime,
updatetime,seq,updatestatus,sys_key) 
as onecl from lqioc_ioc_ods.wghhjrkxx limit 100000">wghhjrkxx.csv

iconv -f UTF-8 -c -t GBK wghhjrkxx.csv > wghhjrkxx2.csv

例如：

beeline -u $url --silent=true --showHeader=false --outputformat=csv --color=true -e "$hql"

格式参数:--outputformat=[table/vertical/csv/tsv/dsv/csv2/tsv2]

hive表中的数据使用hive - e"select * from table">aa.csv导出到csv文件的时候在window中用Excel打开查看的时候是乱码，而且格式也不对。

原因有下面两个：

1.乱码的原因是用excel打开csv时格式默认为gbk，但是从hive中导出来的是utf8的

2.格式不对的原因是csv文件的列分隔符是逗号或者\t，而hive中默认使用\001

解决办法：

使用hive中的concat_ws函数将所有列连接起来组成一列。

concat_ws('分隔符',列1,列2,……)，语句如下

hive -e " select concat_ws(',',cat1,cat2,dd_name) as onecl from dd_prod">testaa.csv

然后再使用iconv -f UTF-8 -c -t GBK testaa.csv > testbb.csv转换编码。得到的testbb.csv没有乱码格式也对。

原文：https://blog.csdn.net/lgdlxc/article/details/42126225

SunWuKong_Hadoop

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
spark-beeline导出hive表数据到csv方法，乱码原因及解决方案

亲测语句1： spark-beeline -u jdbc:hive2://10.254.1.1:13002,10.254.1.1:13002,10.254.1.1:13002 --verbose=true --outputformat=csv -e "select * from lqioc_ioc_ods.wghhjrkxx limit 100000"&gt;wghhjrkxx.csv...
复制链接

扫一扫