hive优化之谓词下推

最新推荐文章于 2023-11-06 22:07:44 发布

ZhuangYQ丶

最新推荐文章于 2023-11-06 22:07:44 发布

阅读量2.4k

点赞数 3

分类专栏：大数据学习 Hive学习

本文链接：https://blog.csdn.net/iilegend/article/details/93336810

版权

大数据学习同时被 2 个专栏收录

57 篇文章 2 订阅

订阅专栏

Hive学习

42 篇文章 3 订阅

订阅专栏

所谓hive中的谓词下推指的是：

hive中join操作：如果直接两个表进行join，在最后再进行两个表的where条件过滤，这样的话实际上hive会将两个表先join起来，最后join出来的大表再进行where筛选，这样的话导致了全表join并且效率低下：

如下：

select a.id,a.value1,b.value2 from table1 a
  left outer join table2 b on a.id=b.id
where b.ds>='20181201' and b.ds<'20190101'
and a.ds>='20181201' and a.ds<'20190101'

效率很低并且占用集群性能！！

但是我们在hive的join查询的时候，先将每个表的数据进行筛选，筛选完了之后的数据在进行join这样，join两端的表数据量就相对变得很少了，提升了效率，也比变了占用更多的集群资源。

采取的方式是：

select a.id,a.value1,b.value2 from 
  (select * from table1 ss where ss.ds>='20181201' and ss.ds<'20190101' ) a
left outer join 
  (select * from table2 ss where ss.ds>='20181201' and ss.ds<'20190101' ) b
on a.id=b.id

--后期再学习spark的源码之后发现这种情况hive需要手动处理，而spark已经自动进行优化了，所以还要注意hive和spark的区别的。

ZhuangYQ丶

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
hive优化之谓词下推

所谓hive中的谓词下推指的是：hive中join操作：如果直接两个表进行join，在最后再进行两个表的where条件过滤，这样的话实际上hive会将两个表先join起来，最后join出来的大表再进行where筛选，这样的话导致了全表join并且效率低下：如下：select a.id,a.value1,b.value2 from table1 a left outer join...
复制链接

扫一扫

专栏目录