doris物化视图查询最优匹配

最新推荐文章于 2024-06-24 13:27:17 发布

Dylan ZhaoHT

最新推荐文章于 2024-06-24 13:27:17 发布

阅读量443

点赞数

分类专栏：数据仓库 doris 文章标签：数据仓库

本文链接：https://blog.csdn.net/qq_43118086/article/details/125004625

版权

数据仓库同时被 2 个专栏收录

23 篇文章 6 订阅

订阅专栏

doris

8 篇文章 0 订阅

订阅专栏

物化视图创建完成后，用户的查询会根据规则自动匹配到最优物化视图。

在这里插入图片描述
如上图：有一张销售记录明细表，并且在这个明细表上创建了三张物化视图。一个存储了不同时间不同销售员的售卖量，一个存储了不同时间不同门店的销售量，以及每个销售员的总销售量。当查询7月19日各个销售员都买了多少钱时，我们可以匹配mv_1物化视图，直接对mv_1的数据进行查询。

自动匹配过程
在这里插入图片描述
自动匹配的过程分为两个步骤：

对候选集合进行一个过滤。只要是查询的结果能从物化视图数据计算（取部分行，部分列，或部分行列的聚合）出都可以留在候选集中，过滤完成后候选集合大小 >= 1
从候选集合中根据聚合程度，索引等条件选出一个最优的也就是查询花费最少物化视图。
过滤候选集执行过程
在这里插入图片描述

候选集过滤目前分为4层，每一层过滤后去除不满足条件的物化视图。（例如：查询7月19日各个销售员都买了多少钱为例）

①首先一开始候选集中包括所有的物化视图以及Base表共4个。
②第一层过滤先判断查询Where中的谓词涉及到的数据是否能从物化视图中得到，也就是销售时间列是否在表中存在。由于第三个物化视图中根本不存在销售时间列。所以在这一层过滤中，mv_3就被淘汰了。
③第二层是过滤查询的分组列是否为候选集的分组列的子集，也就是销售员id 是否为表中分组列的子集。由于第二个物化视图中的分组列并不涉及销售员id 。所以在这一层过滤中，mv_2也被淘汰了。
④第三层过滤是看查询的聚合列是否为候选集中聚合列的子集，也就是对销售额求和是否能从候选集的表中聚合得出。这里Base表和物化视图表均满足标准。
⑤最后一层是过滤看查询需要的列是否存在于候选集合的列中。由于候选集合中的表均满足标准，所以最终候选集合中的表为销售明细表，以及 mv_1 这两张。

选择最优
候选集过滤完后输出一个集合，这个集合中的所有表都能满足查询的需求，但每张表的查询效率都不同。

这时候就需要在这个集合根据前缀索引是否能匹配到，以及聚合程度的高低来选出一个最优的物化视图。

在这里插入图片描述
从表结构中可以看出，Base表的销售日期列是一个非排序列，而物化视图表的日期是一个排序列，同时聚合程度上mv_1表明显比Base表高，所以最后选择出mv_1作为该查询的最优匹配。

查询改写
最后再根据选择出的最优解，改写查询
在这里插入图片描述
刚才的查询选中mv_1后，将查询改写为从mv_1中读取数据，过滤出日志为7月19日的mv_1中的数据然后返回即可。

特殊改写
有些情况下的查询改写还会涉及到查询中的聚合函数的改写。比如业务方经常会用到Count、Distinct对PV、UV进行计算。
在这里插入图片描述
广告点击明细记录表中存放哪个用户点击了什么广告，从什么渠道点击的，以及点击的时间。并且在这个Base表基础上构建了一个物化视图表，存储了不同广告不同渠道的用户Bitmap值。
由于bitmap_union这种聚合方式本身会对相同的用户 user_id 进行一个去重聚合。当用户查询广告在Web端的UV的时候，就可以匹配到这个物化视图。匹配到这个物化视图表后就需要对查询进行改写，将之前的对用户id求 count(distinct) 改为对物化视图中bitmap_union列求count。
所以最后查询取物化视图的第一和第三行求B itmap聚合中有几个值。

在这里插入图片描述

Dylan ZhaoHT

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
doris物化视图查询最优匹配

物化视图创建完成后，用户的查询会根据规则自动匹配到最优物化视图。如上图：有一张销售记录明细表，并且在这个明细表上创建了三张物化视图。一个存储了不同时间不同销售员的售卖量，一个存储了不同时间不同门店的销售量，以及每个销售员的总销售量。当查询7月19日各个销售员都买了多少钱时，我们可以匹配mv_1物化视图，直接对mv_1的数据进行查询。自动匹配过程自动匹配的过程分为两个步骤：对候选集合进行一个过滤。只要是查询的结果能从物化视图数据计算（取部分行，部分列，或部分行列的聚合）出都可以留在候选集中，
复制链接

扫一扫

专栏目录