Doris索引探究

一.行式存储与列式存储

将以下三个元素分别用行式存储和列式存储

[
  {
    "title": "Oriented Column Store",
    "author": "Alex",
    "publish_time": 1508423456,
    "like_num": 1024
  },{
    "title": "Apache Druid",
    "author": "Bob",
    "publish_time": 1504423069,
    "like_num": 65
  },{
    "title": "Algorithm",
    "author": "Casey",
    "publish_time": 1512523069,
    "like_num": 109
  }
]

行式存储的物理结构

在这里插入图片描述

列式的物理结构

在这里插入图片描述
1.优化读操作
2.降低存储成本
3.增强数据分析能力
4.查询特定列更快
代价:写入成本变高

二.Doris存储结构

分区分桶

在这里插入图片描述

整体存储结构

在这里插入图片描述
分区是逻辑上的概念,只记录在表的元数据中,每个分区的数据会按照分桶键进行hash分桶,表中的数据经过分区分桶后,就会形成一个个数据分片tablet(实际的物理存储单元),尽量均匀的分布在集群的所有BE中。 tablet是StarRocks中数据均衡的最小单位,默认的三副本是指同一个 tablet会在集群中保留三份,每个tablet之间的数据没有交集,在物理上独立存储。集群的副本修复或磁盘均衡,均是以tablet为单位移动或者克隆的。且每次的数据导入、更新或者删除,本质上也是对一个个tablet中的数据进行操作。

一个tablet中包含若干连续的rowset,而rowset是逻辑概念,代表tablet中一次数据变更的数据集合(数据变更包括了数据新增,更新或删除等),rowset按版本信息进行记录,每次变更就会生成一个个版本。一个rowset可能会包含多个segment,segment可以认为是rowset中的数据分段。执行数据导入时,每完成写入一个segment就会增加一个文件块对应。segment文件可以有多个,一般按照大小进行分割,默认为256MB 。

Segment文件结构

在这里插入图片描述

三.Doris索引

前缀索引

在这里插入图片描述

布隆索引

在这里插入图片描述
元素经过哈希函数得到所有的偏移位置,若这些位置全都为1,则说明这个元素大概率是在这个集合中,若有一个不为1,则判断这个元素一定不在这个集合中。

Doris中这个bit数组存在哪呢?

倒排索引

在这里插入图片描述

Ordinal Index

在这里插入图片描述
在OrdinalIndexMeta中存放了索引数据对应的root page地址,这里做了一些优化,当数据仅有一个page时,这里的地址可以直接指向唯一的数据page;当一个page放不下时,指向OrdinalIndex类型的二级结构索引page,索引数据中每个数据项对应了Column Data Page offset位置、size大小和ordinal行号信息。其中Ordinal index索引粒度与page粒度一致,默认64*1024字节。

ZoneMap索引

在这里插入图片描述

如何合理地设计和操作表可以参考Doris官网
推荐《Doris实时数据仓库理论与实战》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值