6、Druid的Roll up详细介绍及示例

一瓢一瓢的饮 alanchanchn

已于 2024-08-13 09:00:06 修改

阅读量5.1w

点赞数

分类专栏：大数据相关组件介绍文章标签： java hadoop 大数据时序数据库 kafka

于 2023-05-22 14:14:53 首次发布

本文链接：https://blog.csdn.net/chenwewi520feng/article/details/130767121

版权

49 篇文章 4 订阅

订阅专栏

本文详细介绍了ApacheDruid的数据处理机制，特别是Roll-up聚合过程，如何在数据摄入时减小存储需求。文章通过实例展示了Druid如何利用位图索引加速条件和groupby查询，以及数据结构和查询流程。

摘要由CSDN通过智能技术生成

Apache Druid 系列文章

本文介绍了druid 的 rool-up过程以及位图索引构建过程、实际的应用过程。
本文分为1个部分，即介绍与示例。

Apache Druid可以通过roll-up在数据摄取阶段对原始数据进行汇总。
Roll-up是对选定列集的一级聚合操作，它可以减小存储数据的大小。
本文将讨论在一个示例数据集上进行roll-up的结果。

Roll-up聚合前
在这里插入图片描述

Roll-up聚合后
在这里插入图片描述
1、位图索引

以下为一个DataSource（表）中存储的数据

数据结构说明：第一列为时间，Appkey和area都是维度列，value为metric列
在这里插入图片描述

按天聚合后的数据，如下。
说明：Druid会在导入阶段自动对数据进行Rollup，将维度相同组合的数据进行聚合处理
在这里插入图片描述

Druid通过建立位图索引，来实现快速进行数据查找。
索引位图可以看作是HashMap<String, Bitmap>

索引如下所示
说明：0表示行内没有，1表示行内有该数据
在这里插入图片描述

select 
    sum(value) 
from AD_areauser 
where 
    time=’2023-01-04’ and 
    Appkey in (‘appkey1’,’appkey2’) and 
    area=’beijng’

执行过程

根据时间段定位到segment
Appkey in (‘appkey1’, ‘appkey2’) and area=’beijing’查到各自的bitmap
( appkey1(1000) or appkey2(0110) ) and ( beijing (1100) ) = (1000 or 0110 ) and ( 1100 )= 1110 and 1100 =1100
符合条件的列为第一行和第二行，这两行的 sum(value) 的和为26.

select 
    area, 
    sum(value) 
from AD_areauser 
where 
    time=’2023-01-04’ and  
    Appkey in (‘appkey1’,’appkey2’) 
group by area

执行过程

根据时间段定位到segment
Appkey in (‘appkey1’,’appkey2’)查到各自的bitmap appkey1(1000) or appkey2(0110) = ( 1110 )
将第一行、第二行、第三行取出来
在内存中做分组聚合，结果为：beijing：26， shanghai：13

以上，介绍了roll up的过程以及位图索引的实现过程。