大数据StarRocks(三) StarRocks数据表设计_starrocks单表存储数据多大

最新推荐文章于 2024-08-29 11:24:16 发布

2401_84166458

最新推荐文章于 2024-08-29 11:24:16 发布

阅读量750

点赞数 10

分类专栏： 2024年程序员学习文章标签：大数据

本文链接：https://blog.csdn.net/2401_84166458/article/details/137899716

版权

本文介绍了大数据处理系统StarRocks的数据表设计，包括稀疏索引、加速数据处理的方法（如预先聚合、分区分桶、物化视图和列级索引）以及四种数据模型（明细、聚合、更新和主键模型）。通过这些机制，StarRocks实现了高效查询和数据处理。文章强调了数据的列式存储、索引技术和预先聚合在提高查询效率上的作用，同时也讨论了如何利用表的排序键和物化视图来优化数据访问。

摘要由CSDN通过智能技术生成

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip204888 （备注大数据）

正文

在StarRocks中，每个表都被分成多个块（block），每个块包含了一定数量的列数据。当执行查询时，StarRocks会根据查询条件定位到相应的块，并从这些块中读取所需的列数据，从而实现高效的查询。为了支持列式存储，StarRocks还提供了一些列式存储相关的功能，例如列式索引、列式聚合、列式过滤等，这些功能可以进一步提高查询效率和数据压缩效率。

StarRocks的表和关系型数据库类似, 由行和列构成. 每行数据对应用户一条记录, 每列数据有相同数据类型. 所有数据行的列数相同, 可以动态增删列. StarRocks中, 一张表的列可以分为维度列(也成为key列)和指标列(value列), 维度列用于分组和排序, 指标列可通过聚合函数SUM, COUNT, MIN, MAX, REPLACE, HLL_UNION, BITMAP_UNION等累加起来. 因此, StarRocks的表也可以认为是多维的key到多维指标的映射.
在StarRocks中, 表中数据按列存储, 物理上, 一列数据会经过分块编码压缩等操作, 然后持久化于非易失设备, 但在逻辑上, 一列数据可以看成由相同类型的元素构成的数组. 一行数据的所有列在各自的列数组中保持对齐, 即拥有相同的数组下标, 该下标称之为序号或者行号. 该序号是隐式, 不需要存储的, 表中的所有行按照维度列, 做多重排序, 排序后的位置就是该行的行号.
查询时, 如果指定了维度列的等值条件或者范围条件, 并且这些条件中维度列可构成表维度列的前缀, 则可以利用数据的有序性, 使用range-scan快速锁定目标行. 例如: 对于表table1: (event_day, siteid, citycode, username)➜(pv); 当查询条件为event_day > 2020-09-18 and siteid = 2, 则可以使用范围查找; 如果指定条件为citycode = 4 and username in [“Andy”, “Boby”, “Christian”, “StarRocks”], 则无法使用范围查找.

2.稀疏索引

StarRocks 通过前缀索引 (Prefix Index) 和列级索引，能够快速找到目标行所在数据块的起始行号。
StarRocks 表设计原理如下图所示。
在这里插入图片描述

表中组织由三个部分组成：

（1）

最低0.47元/天解锁文章

2401_84166458

关注

10
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
大数据StarRocks(三) StarRocks数据表设计_starrocks单表存储数据多大

StarRocks的表和关系型数据库类似, 由行和列构成. 每行数据对应用户一条记录, 每列数据有相同数据类型. 所有数据行的列数相同, 可以动态增删列. StarRocks中, 一张表的列可以分为维度列(也成为key列)和指标列(value列), 维度列用于分组和排序, 指标列可通过聚合函数SUM, COUNT, MIN, MAX, REPLACE, HLL_UNION, BITMAP_UNION等累加起来. 因此, StarRocks的表也可以认为是多维的key到多维指标的映射.
复制链接

扫一扫