MergeTree原理之二级索引

最新推荐文章于 2024-04-19 13:22:32 发布

小白数据猿

最新推荐文章于 2024-04-19 13:22:32 发布

阅读量1k

点赞数

分类专栏： clickhouse 文章标签： clickhouse

本文链接：https://blog.csdn.net/lidongmeng0213/article/details/128464422

版权

二级索引

除了一级索引之外，MergeTree同样支持二级索引，二级索引又称跳数索引，由数据的聚合信息构建而成。根据索引类型的不同，其聚合信息的内容也不同，当然跳数索引的作用和一级索引是一样的，也是为了查询时减少数据的扫描范围。跳数索引需要在 CREATE 语句内定义，它支持使用元组和表达式的形式声明，其完整的定义语法如下所示：

CREATE TABLE table_name (
    column1 type,
    column2 type,
    ......
    INDEX index_name expr TYPE index_type(...) GRANULARITY granularity
)

与一级索引一样，如果在建表语句中声明了跳数索引，则会额外生成相应的索引文件和标记文件<skp_idx_[Column].idx 与 skp_idx_[Column].idx>。

二级索引原理

不同的跳数索引之间，除了它们自身独有的参数之外，还都共同拥有granularity参数。对于跳数索引而言，index_granularity 定义了数据的粒度，而 granularity 定义了聚合信息汇总的粒度。换言之，granularity 定义了一行跳数索引能够跳过多少个 index_granularity 区间的数据。要解释清除 granularity 的作用，就要成跳数索引的生成规则说起，其规则大致是如下：首先按照 index_granularity 粒度间隔将数据划分成 n 段，总共有 [0, n - 1] 个区间（n = totol_rows / index_granularity，向上取整）；接着根据索引定义时声明的表达式，从 0 区间开始依次按照 index_granularity 粒度从数据中获取聚合信息，每次向前移动一步，聚合信息聚合信息逐步累加。最后当移动 granularity 次区间时，则汇总并声称一行跳数索引数据。

最低0.47元/天解锁文章

小白数据猿

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MergeTree原理之二级索引

除了一级索引之外，MergeTree同样支持二级索引，二级索引又称跳数索引，由数据的聚合信息构建而成。根据索引类型的不同，其聚合信息的内容也不同，当然跳数索引的作用和一级索引是一样的，也是为了查询时减少数据的扫描范围
复制链接

扫一扫