hive 优化指南

本文介绍了Hive的优化技巧,包括使用分区表减少处理文件数、启用map和reduce输出压缩、并行化操作、增大reduce个数、启用map端聚合、处理数据批量化、优化group by操作、调整mapred.mode、解决数据倾斜问题、以及count(distinct)和join操作的优化。通过这些策略,可以显著提升Hive查询效率。
摘要由CSDN通过智能技术生成

任务任务优化

1分区表,扫描指定的文件数,减少处理的文件

2.对map/reduce的输出进行压缩,map和reduce,压缩可以减少IO和网络传输的时间

set mapred.compress.map.output=true

3. 桶

4.并行化操作

参数 SET hive.exce.parallel=true;.原理如下图

hive.exec.parallel.thread.number
                    并行执行任务个数,默认为8    

5.Vectorization

处理数据每次处理一批数据,而不是一行行处理

set hive.vectorized.execution.enabled = true;
set hive.vectorized.execution.reduce.enabled = true;

6.增大reduce个数

set hive.exec.reducers.max=200;

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wending-Y

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值