大数据StarRocks(三) StarRocks数据表设计_starrocks单表存储数据多大

最新推荐文章于 2024-05-12 11:47:16 发布

2401_84181986

最新推荐文章于 2024-05-12 11:47:16 发布

阅读量858

点赞数 30

分类专栏：程序员文章标签：大数据 java 数据库

本文链接：https://blog.csdn.net/2401_84181986/article/details/138283372

版权

本文介绍了StarRocks的数据表设计，包括shortkey index、Per-column data block和Per-column cardinal index，以及加速数据处理的手段，如预先聚合、分区分桶、物化视图和列级索引。此外，详细阐述了明细模型、聚合模型、更新模型和主键模型的数据组织，强调了排序键和位图索引在数据查询中的作用。

摘要由CSDN通过智能技术生成

（1）shortkey index表

表中数据每1024行, 构成一个逻辑block. 每个逻辑block在shortkey index表中存储一项索引, 内容为表的维度列的前缀, 并且不超过36字节. shortkey index为稀疏索引, 用数据行的维度列的前缀查找索引表, 可以确定该行数据所在逻辑块的起始行号.

（2）Per-column data block

表中每一列数据按64KB分块存储, 数据块作为一个单位单独编码压缩, 也作为IO单位, 整体写回设备或者读出.

（3）Per-column cardinal index

表中的每列数据有各自的行号索引表, 列的数据块和行号索引项一一对应, 索引项由数据块的起始行号和数据块的位置和长度信息构成, 用数据行的行号查找行号索引表, 可以获取包含该行号的数据块所在位置, 读取目标数据块后, 可以进一步查找数据.

由此可见, 查找维度列的前缀的查找过程为: 先查找shortkey index, 获得逻辑块的起始行号, 查找维度列的行号索引, 获得目标列的数据块, 读取数据块, 然后解压解码, 从数据块中找到维度列前缀对应的数据项。

3.加速数据处理

（1）预先聚合

StarRocks支持聚合模型, 维度列取值相同数据行可合并一行, 合并后数据行的维度列取值不变, 指标列的取值为这些数据行的聚合结果, 用户需要给指标列指定聚合函数. 通过预先聚合, 可以加速聚合操作.

（2）分区分桶

事实上StarRocks的表被划分成tablet, 每个tablet多副本冗余存储在BE上, BE和tablet的数量可以根据计算资源和数据规模而弹性伸缩. 查询时, 多台BE可并行地查找tablet快速获取数据. 此外, tablet的副本可复制和迁移, 增强了数据的可靠性, 避免了数据倾斜. 总之, 分区分桶保证了数据访问的高效性和稳定性.

（3）物化视图

前缀索引可以加速数据查找，但是前缀索引依赖维度列的排列次序。如果使用非前缀的维度列构造查找谓词，则无法使用前缀索引。您可以为数据表创建物化视图。物化视图的数据组织和存储与数据表相同，但物化视图拥有自己的前缀索引。在为物化视图创建索引时，可指定聚合的粒度、列的数量和维度列的次序，使频繁使用的查询条件能够命中相应的物化视图索引。

（4）列级索引

StarRocks 支持布隆过滤器 (Bloom Filter)、ZoneMap 索引和位图 (Bitmap) 索引等列级别的索引技术：
布隆过滤器有助于快速判断数据块中不含所查找的值。
ZoneMap 索引有助于通过数据范围快速过滤出待查找的值。
位图索引有助于快速计算出枚举类型的列满足一定条件的行。