Hive Job层面的优化

本文介绍了Hive作业的优化方法,包括在数据量小时运行本地模式、启用JVM重用以减少启动时间、开启并行执行提高效率,以及查询优化如启用map side join、bucket map side join、skewjoin和CBO。此外,还建议使用CTE简化代码,并利用window functions提升查询复杂性。
摘要由CSDN通过智能技术生成

1.  Run in Local Mode

数据处理比较小的时候就运行本地模式,

不需要分布式。

把阀值这三个设置改一下就是本地模式了。

 

2.  JVM Reuse

Hadoop每当得到一个map或者reduce任务的时候,

就会启动一个新的JVM。

处理job时间比较短,但是启动JVM太费时了。

配置成JVM Reuse可以大大优化

 

3. Parallel Exectution 并行执行

这个很常用的,默认是关闭的。

hive很多阶段是可以并行执行的,

并不是每个阶段都互相依赖,

如果集群中资源利用效率不高,可以考虑开启此选项。

 

4. 查询优化

(1)map side join 设置为enable

(2)bucket map side join 也设置为ena

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值