Doris索引探究

最新推荐文章于 2024-09-08 14:54:21 发布

天于

最新推荐文章于 2024-09-08 14:54:21 发布

阅读量311

点赞数 5

文章标签：大数据数据库

本文链接：https://blog.csdn.net/qq_28123723/article/details/141325024

版权

一.行式存储与列式存储

将以下三个元素分别用行式存储和列式存储

[
  {
    "title": "Oriented Column Store",
    "author": "Alex",
    "publish_time": 1508423456,
    "like_num": 1024
  },{
    "title": "Apache Druid",
    "author": "Bob",
    "publish_time": 1504423069,
    "like_num": 65
  },{
    "title": "Algorithm",
    "author": "Casey",
    "publish_time": 1512523069,
    "like_num": 109
  }
]

行式存储的物理结构

在这里插入图片描述

列式的物理结构

在这里插入图片描述
1.优化读操作
2.降低存储成本
3.增强数据分析能力
4.查询特定列更快
代价：写入成本变高

二.Doris存储结构

分区分桶

在这里插入图片描述

整体存储结构

在这里插入图片描述
分区是逻辑上的概念，只记录在表的元数据中，每个分区的数据会按照分桶键进行hash分桶，表中的数据经过分区分桶后，就会形成一个个数据分片tablet(实际的物理存储单元)，尽量均匀的分布在集群的所有BE中。 tablet是StarRocks中数据均衡的最小单位，默认的三副本是指同一个 tablet会在集群中保留三份，每个tablet之间的数据没有交集，在物理上独立存储。集群的副本修复或磁盘均衡，均是以tablet为单位移动或者克隆的。且每次的数据导入、更新或者删除，本质上也是对一个个tablet中的数据进行操作。

一个tablet中包含若干连续的rowset，而rowset是逻辑概念，代表tablet中一次数据变更的数据集合（数据变更包括了数据新增，更新或删除等），rowset按版本信息进行记录，每次变更就会生成一个个版本。一个rowset可能会包含多个segment，segment可以认为是rowset中的数据分段。执行数据导入时，每完成写入一个segment就会增加一个文件块对应。segment文件可以有多个，一般按照大小进行分割，默认为256MB 。

Segment文件结构

在这里插入图片描述

三.Doris索引

前缀索引

在这里插入图片描述

布隆索引

在这里插入图片描述
元素经过哈希函数得到所有的偏移位置，若这些位置全都为1，则说明这个元素大概率是在这个集合中，若有一个不为1，则判断这个元素一定不在这个集合中。

Doris中这个bit数组存在哪呢？

倒排索引

在这里插入图片描述

Ordinal Index

在这里插入图片描述
在OrdinalIndexMeta中存放了索引数据对应的root page地址，这里做了一些优化，当数据仅有一个page时，这里的地址可以直接指向唯一的数据page；当一个page放不下时，指向OrdinalIndex类型的二级结构索引page，索引数据中每个数据项对应了Column Data Page offset位置、size大小和ordinal行号信息。其中Ordinal index索引粒度与page粒度一致，默认64*1024字节。