如何解决spark写hive慢的问题

最新推荐文章于 2024-08-10 11:07:33 发布

chenfangfang_2015

最新推荐文章于 2024-08-10 11:07:33 发布

阅读量1.5w

点赞数 4

文章标签： spark hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lulynn/article/details/51543567

版权

本文探讨了在Spark中写入Hive表时遇到的性能问题，特别是INSERT OVERWRITE操作的耗时。通过将数据保存为Hive兼容的textfile格式并使用Hive的LOAD DATA命令，显著减少了写入时间。此外，还提到了针对ORC表的优化策略，包括创建临时表和使用SELECT插入，以实现更快的数据迁移。

摘要由CSDN通过智能技术生成

在使用spark写hive过程中，发现最耗时的部分是将产生的结果写入hive，举个例子，对3g*1G表的join来讲，将结果使用以下方式直接写入hive表需要超过半小时的时间：

dataframe.registerTempTable("result")

sql(s"""INSERT OVERWRITE Table $outputTable PARTITION (dt ='$outputDate') select * from result""")

而整个结果

最低0.47元/天解锁文章

chenfangfang_2015

关注

4
点赞
踩
19

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。