一.行式存储与列式存储
将以下三个元素分别用行式存储和列式存储
[
{
"title": "Oriented Column Store",
"author": "Alex",
"publish_time": 1508423456,
"like_num": 1024
},{
"title": "Apache Druid",
"author": "Bob",
"publish_time": 1504423069,
"like_num": 65
},{
"title": "Algorithm",
"author": "Casey",
"publish_time": 1512523069,
"like_num": 109
}
]
行式存储的物理结构
列式的物理结构
1.优化读操作
2.降低存储成本
3.增强数据分析能力
4.查询特定列更快
代价:写入成本变高
二.Doris存储结构
分区分桶
整体存储结构
分区是逻辑上的概念,只记录在表的元数据中,每个分区的数据会按照分桶键进行hash分桶,表中的数据经过分区分桶后,就会形成一个个数据分片tablet(实际的物理存储单元),尽量均匀的分布在集群的所有BE中。 tablet是StarRocks中数据均衡的最小单位,默认的三副本是指同一个 tablet会在集群中保留三份,每个tablet之间的数据没有交集,在物理上独立存储。集群的副本修复或磁盘均衡,均是以tablet为单位移动或者克隆的。且每次的数据导入、更新或者删除,本质上也是对一个个tablet中的数据进行操作。
一个tablet中包含若干连续的rowset,而rowset是逻辑概念,代表tablet中一次数据变更的数据集合(数据变更包括了数据新增,更新或删除等),rowset按版本信息进行记录,每次变更就会生成一个个版本。一个rowset可能会包含多个segment,segment可以认为是rowset中的数据分段。执行数据导入时,每完成写入一个segment就会增加一个文件块对应。segment文件可以有多个,一般按照大小进行分割,默认为256MB 。
Segment文件结构
三.Doris索引
前缀索引
布隆索引
元素经过哈希函数得到所有的偏移位置,若这些位置全都为1,则说明这个元素大概率是在这个集合中,若有一个不为1,则判断这个元素一定不在这个集合中。
Doris中这个bit数组存在哪呢?
倒排索引
Ordinal Index
在OrdinalIndexMeta中存放了索引数据对应的root page地址,这里做了一些优化,当数据仅有一个page时,这里的地址可以直接指向唯一的数据page;当一个page放不下时,指向OrdinalIndex类型的二级结构索引page,索引数据中每个数据项对应了Column Data Page offset位置、size大小和ordinal行号信息。其中Ordinal index索引粒度与page粒度一致,默认64*1024字节。
ZoneMap索引
如何合理地设计和操作表可以参考Doris官网
推荐《Doris实时数据仓库理论与实战》