Hive优化的十条详细策略（中）

最新推荐文章于 2024-09-23 17:10:21 发布

Forever_ck

最新推荐文章于 2024-09-23 17:10:21 发布

阅读量470

点赞数 1

分类专栏： Hive 文章标签：大数据 Hive优化

本文链接：https://blog.csdn.net/forever_ck/article/details/85780280

版权

本文介绍了Hive优化的几个关键策略，包括避免笛卡尔积，选择性选取列和行过滤，动态分区的配置与应用，以及如何合理设置Map和Reduce的数量以应对数据倾斜问题。通过实例展示了不同优化策略的效果和调整方法。

摘要由CSDN通过智能技术生成

话不多说，我们继续我们的Hive优化，上篇地址：
https://blog.csdn.net/Forever_ck/article/details/85777938
3.6 笛卡儿积：
尽量避免笛卡尔积，join 的时候不加 on 条件，或者无效的 on 条件，Hive 只能使用 1个 reducer 来完成笛卡尔积。

3.7 行列过滤
列处理：在 SELECT 中，只拿需要的列，如果有，尽量使用分区过滤，少用 SELECT *。
行处理：在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在 Where 后面，那么就会先全表关联，之后再过滤
案例八：
（1）测试先关联两张表，再用 where 条件过滤

hive (default)> select o.id from bigtable b
						join ori o on o.id = b.id where o.id <= 10;

结果：Time taken: 34.406 seconds, Fetched: 100 row(s)
Time taken: 26.043 seconds, Fetched: 100 row(s)
（2）通过子查询后，再关联表

hive (default)> select b.id from bigtable b
join (select id from ori where id <= 10 ) o on b.id = o.id;

结果：Time taken: 30.058 seconds, Fetched: 100 row(s)
Time taken: 29.106 seconds, Fetched: 100 row(s)

3.8 动态分区调整
关系型数据库中，对分区表 Insert 数据时候，数据库自动会根据分区字段的值，将数据插入到相应的分区中，Hive 中也提供了类似的机制，即动态分区(Dynamic Partition)，只不过，使用Hive 的动态分区，需要进行相应的配置。

最低0.47元/天解锁文章

Forever_ck

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录