Hive谓词下推

最新推荐文章于 2024-04-21 16:26:47 发布

只要开始永远不晚

最新推荐文章于 2024-04-21 16:26:47 发布

阅读量1.2k

点赞数 1

分类专栏： # hive # SQL

本文链接：https://blog.csdn.net/haohaizijhz/article/details/104479866

版权

SQL 同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

hive

9 篇文章 0 订阅

订阅专栏

普及一个术语：谓词下推

谓词下推是一种自动优化规则，如果养成好的查询习惯你其实并不需要hive自动去帮你谓词下推。

因为优化器的规则经常变，记住规则比较难，养成好的查询习惯比较简单。

如果没有听说过这个术语，没关系，很有可能的是你已经养成了好的查询习惯，根本不需要hive帮你优化，但还是了解一下好。

谓词下推 Predicate Pushdown（PPD）：简而言之，就是在不影响结果的情况下，尽量将过滤条件提前执行。谓词下推后，过滤条件在map端执行，减少了map端的输出，降低了数据在集群上传输的量，节约了集群的资源，也提升了任务的性能。——《Hive中的Predicate Pushdown Rules（谓词下推规则)》

所以，如果我们能够做到，先过滤，再join，先筛选出有用的数据，再进行其他操作，我们其实不需要知道“谓词下推”这个术语。

但是，知道它，可以避免一些失误。同时，可以拓宽自己的知识面。

所谓hive中的谓词下推指的是：

hive中join操作：如果直接两个表进行join，在最后再进行两个表的where条件过滤，这样的话实际上hive会将两个表先join起来，最后join出来的大表再进行where筛选，这样的话导致了全表join并且效率低下：

如下：

    select a.id,a.value1,b.value2 from table1 a
      left outer join table2 b on a.id=b.id
    where b.ds>='20181201' and b.ds<'20190101'
    and a.ds>='20181201' and a.ds<'20190101'

效率很低并且占用集群性能！！

但是我们在hive的join查询的时候，先将每个表的数据进行筛选，筛选完了之后的数据在进行join这样，join两端的表数据量就相对变得很少了，提升了效率，也比变了占用更多的集群资源。

采取的方式是：

    select a.id,a.value1,b.value2 from
      (select * from table1 ss where ss.ds>='20181201' and ss.ds<'20190101' ) a
    left outer join
      (select * from table2 ss where ss.ds>='20181201' and ss.ds<'20190101' ) b
    on a.id=b.id

参考:

hive优化之谓词下推

只要开始永远不晚

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hive谓词下推

谓词下推是一种自动优化，如果养成好的查询习惯你其实并不需要hive自动去帮你谓词下推。谓词下推 Predicate Pushdown（PPD）：简而言之，就是在不影响结果的情况下，尽量将过滤条件提前执行。
复制链接

扫一扫