beeline 将查询的数据导出来_HIVE数据导出CSV

最新推荐文章于 2023-01-10 09:24:24 发布

赵北云

最新推荐文章于 2023-01-10 09:24:24 发布

阅读量2.3k

点赞数

文章标签： beeline 将查询的数据导出来

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42519126/article/details/113016250

版权

此前一直使用HIVE的Insert overwrite到本地目录的方法进行文件导出，但问题多多。主要原因是分隔符经常出现在字段中，实操中用竖杠|分隔问题较少。

insert overwrite local directory '/url/lxb/hive'

row format delimited

fields terminated by ','

select * from table_name limit 100

此外也尝试使用HIVE -E的方法，再通过sed 's/x01/,/g'命令进行文件过滤。

两种效果均不是很理想，究其原因，主要是两种方法导出的文件都不是标准CSV。

目前使用比较顺畅的方式是通过spark-shell2, 先把Hive表转化为DataFrame，再基于DataFrame.writer.csv()(DataFrameWriter.csv)导出到HDFS。

df = spark.sql("select * from test.student3")

df.write.csv("/HDFS目录")

hadoop fs -get /HDFS目录 XXX

----------------------------------- 2019-08-05更新--------------------------------------

beeline -n hive -u jdbc:hive2://XXXX:10000 --verbose=true --outputformat=csv2 -e "XXXXXXXX" >> XXX.csv

通过beeline导出HIVE数据至CSV较为稳定。

然后导出的数据编码为utf-8，需要进行转码。

iconv -f UTF-8 -t GBK XXX.csv to XXX_gbk.csv

有时候转GBK会报错，可以选另外两种Excel可以直接打开的编码格式。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
beeline 将查询的数据导出来_HIVE数据导出CSV

此前一直使用HIVE的Insert overwrite到本地目录的方法进行文件导出，但问题多多。主要原因是分隔符经常出现在字段中，实操中用竖杠|分隔问题较少。insert overwrite local directory '/url/lxb/hive'row format delimitedfields terminated by ','select * from table_name limi...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。