Hive优化的十条详细策略(中)

本文介绍了Hive优化的几个关键策略,包括避免笛卡尔积,选择性选取列和行过滤,动态分区的配置与应用,以及如何合理设置Map和Reduce的数量以应对数据倾斜问题。通过实例展示了不同优化策略的效果和调整方法。
摘要由CSDN通过智能技术生成

话不多说,我们继续我们的Hive优化,上篇地址:
https://blog.csdn.net/Forever_ck/article/details/85777938
3.6 笛卡儿积:
尽量避免笛卡尔积,join 的时候不加 on 条件,或者无效的 on 条件,Hive 只能使用 1个 reducer 来完成笛卡尔积。

3.7 行列过滤
列处理:在 SELECT 中,只拿需要的列,如果有,尽量使用分区过滤,少用 SELECT *。
行处理:在分区剪裁中,当使用外关联时,如果将副表的过滤条件写在 Where 后面,那么就会先全表关联,之后再过滤
案例八:
(1)测试先关联两张表,再用 where 条件过滤

hive (default)> select o.id from bigtable b
						join ori o on o.id = b.id where o.id <= 10;

结果:Time taken: 34.406 seconds, Fetched: 100 row(s)
Time taken: 26.043 seconds, Fetched: 100 row(s)
(2)通过子查询后,再关联表

hive (default)> select b.id from bigtable b
join (select id from ori where id <= 10 ) o on b.id = o.id;

结果:Time taken: 30.058 seconds, Fetched: 100 row(s)
Time taken: 29.106 seconds, Fetched: 100 row(s)

3.8 动态分区调整
关系型数据库中,对分区表 Insert 数据时候,数据库自动会根据分区字段的值,将数据插入到相应的分区中,Hive 中也提供了类似的机制,即动态分区(Dynamic Partition),只不过,使用Hive 的动态分区,需要进行相应的配置。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值