如何解决spark写hive慢的问题

本文探讨了在Spark中写入Hive表时遇到的性能问题,特别是INSERT OVERWRITE操作的耗时。通过将数据保存为Hive兼容的textfile格式并使用Hive的LOAD DATA命令,显著减少了写入时间。此外,还提到了针对ORC表的优化策略,包括创建临时表和使用SELECT插入,以实现更快的数据迁移。
摘要由CSDN通过智能技术生成

在使用spark写hive过程中,发现最耗时的部分是将产生的结果写入hive,举个例子,对3g*1G表的join来讲,将结果使用以下方式直接写入hive表需要超过半小时的时间:

dataframe.registerTempTable("result")

sql(s"""INSERT OVERWRITE Table $outputTable PARTITION (dt ='$outputDate') select * from result""")

而整个结果

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值