StarRocks 存算分离数据回收原理

最新推荐文章于 2024-12-02 10:33:20 发布

kai_ding

最新推荐文章于 2024-12-02 10:33:20 发布

阅读量1.1k

点赞数 25

分类专栏： StarRocks 数据仓库文章标签：数据仓库大数据

本文链接：https://blog.csdn.net/kai_ding/article/details/141389325

版权

StarRocks存算分离表中，垃圾回收是为了删除那些无用的历史版本数据，从而节约存储空间。考虑到对象存储按照存储容量收费，因此，节约存储空间对于降本增效尤为必要。

在系统运行过程中，有以下几种情况可能会需要删除对象存储上的数据：

目前在 StarRocks 的存算分离表存储在对象存储上的文件类型包含如下几种：

Segment 文件：导入过程中会产生数据文件，存算分离的数据文件格式与存算一体保持一致
Txn Log 文件：StarRocks 存算分离实现中，每次导入或者 Compaction 都会产生一次事务，每个 Tablet 在数据写入的最后阶段都会产生一个 Txn Log 文件，记录本次导入新增的数据文件列表
Tablet Meta 文件：StarRocks 每次导入或者 Compaction 都会产生全局唯一的版本。而 Tablet Meta 文件在事务提交阶段产生，存储 Tablet 特定版本的元数据信息，其中主要记录了该版本所有可见的数据文件名

本文旨在描述 StarRocks 存算分离表垃圾回收的原理，会针对上述两种数据清理场景分别描述其内部原理，帮助开发和运维人员能更好地理解并根据实际需要做出合适的配置，以在性能和成本方面取得平衡。

在介绍数据清理之前，我们有必要先介绍下目前 StarRocks 存算分离的数据多版本技术，以便更好地理解垃圾数据回收原理。

StarRocks 存算分离版本中，数据在对象存储上的组织结构如下图所示：

上图中共产生了三次数据导入事务，其中：

Load Txn 1: 在事务数据写入阶段，生成了新数据文件 file 1 & file 2，该事务提交后生成了 Tablet Meta V1，其中记录该版本可见的文件列表为 {file-1, file-2}
Load Txn 2: 在事务数据写入阶段，生成了新数据文件 file 3 & file 4。在提交时，根据前一个版本（即 Tablet Meta V1）然后加上本次导入事务生成的新数据文件（file-3 & file-4），生成了新的 Tablet Meta V2，因此，该版本可见的文件列表为 {file-1, file-2, file-3, file-4}
Load Txn 3: 在事务写入阶段，产生了新数据文件 file 5。该事务提交时，根据前一个版本（即 Tablet Meta V2）然后加上本次导入事务生成的新数据文件（file-5），产生了新的 Tablet Meta V3，因此，该版本的可见文件列表为 {file-1, file-2, file-3, file-4, file-5}

除了用户导入事务产生了新的数据版本，在存算分离架构中，系统后台 Compaction 任务也会产生新数据版本。Compaction 的目的有二: 1). 将多个版本的小文件合并为大文件，减少查询时的随机 IO 次数，2). 消除重复数据记录，减少数据总量。

在存算分离表中，每次 Compaction 同样会产生一个全新的版本。依然以上面为例，假如在上面 Txn 3 之后新的事务 Txn 4 为一次 Compaction 任务&#x