简介:今天介绍列式数据库的一些基本原理
一 数据目录
Data目录 数据存储目录,数据按照part分成多个文件夹,每个文件夹下存储相应数据和对应的元信息文件
Metadata 表定义语句,存储所有表的建表语句
二 基本原理
记录方式:每隔8192行数据,是1个block,主键会每隔8192,取一行主键列的数据,同时记录这是第几个block
查找过程:如果有索引,就通过索引定位到是哪个block,然后找到这个block对应的mrk文件,mrk文件里记录的是某个block的数据集,在整列bin文件的哪个物理偏移位,加载数据到内存,之后并行化过滤
构成图如下
主键本身也符合最左原则,下面是查找图,所以查询时最好利用好主键条件