分级存储教程

DolphinDB智臾科技

已于 2023-03-17 10:57:50 修改

阅读量297

点赞数

文章标签：时序数据库 DolphinDB 分布式存储分级存储 Powered by 金山文档

于 2023-03-14 11:27:32 首次发布

本文链接：https://blog.csdn.net/qq_41996852/article/details/129521366

版权

DolphinDB支持将冷数据自动迁移至本地低速磁盘或AWSS3，通过配置coldVolumes参数和setRetentionPolicy函数设置数据保留时间。数据迁移依托于DolphinDB的recovery机制，读取冷数据时利用缓存加速。此功能有助于节省存储资源并优化成本。

摘要由CSDN通过智能技术生成

1.简介

在数据库领域，分级存储是一种常见的需求，即将一部分较旧的数据转存至本地其他磁盘卷（通常是更低速的磁盘卷）或对象存储方案中。较旧的数据（冷数据）通常不会被用户频繁查询或计算，但是存储在本地会占用大量磁盘资源，因此将不常用的数据存储在对象存储中，或将其从高速磁盘（如 ssd）转存至较低速的磁盘（如 hdd），可以有效节约资源开销。本文将介绍 DolphinDB 的分级存储功能的基本原理和如何使用。

2.使用介绍

2.1 参数配置

在使用分级存储前，需要先配置相应的参数：

冷数据磁盘卷配置项 coldVolumes

coldVolumes=file:/{your_local_path},s3://{your_bucket_name}/{s3_path_prefix}

我们使用 coldVolumes 配置项来指定存储冷数据的文件目录。该参数支持配置为本地路径（以 file:/ 开头）或者 s3 路径（以 s3:// 开头）。也可指定多个路径，路径间用逗号隔开。

例如：

coldVolumes=file://home/mypath/hdd/<ALIAS>,s3://bucket1/data/<ALIAS>

注意：

不同数据节点需要配置不同的 coldVolumes 路径，否则可能会造成不同 datanode 间数据的相互覆盖。这里通过 <ALIAS> 宏定义，让每个 datanode 将数据放到 /home/mypath/hdd/ 目录下按照节点别名命名的目录中。

如果您配置了 S3 路径，那么还需要配置 AWS S3 插件，以及 S3 的 AccessKeyId，SecretAccessKey，Region 等信息：

pluginDir=plugins //指定节点的插件目录，需要将AWS S3插件放到plugins目录下
preloadModules=plugins::awss3 //系统启动后自动加载AWS S3插件
s3AccessKeyId={your_access_key_id}
s3SecretAccessKey={your_access_screet_key}
s3Region={your_s3_region}

有关配置的详情，参考分级存储 — DolphinDB 2.0 documentation 。

有关AWS S3插件的用法，参考aws/README.md · dolphindb/DolphinDBPlugin - Gitee 。

2.2 设置数据迁移范围

在 DolphinDB 中，您可以使用 setRetentionPolicy函数的参数 hoursToColdVolume 来配置数据的保留时间。

假设在上文中，我们已经配置了 coldVolumes：

coldVolumes=file://home/dolphindb/tiered_store/<ALIAS>

DolphinDB 通过数据的时间列来确定需要迁移的数据，所以需要对应的数据库存在时间分区的分区方案。首先，我们先创建一个时间列 VALUE 分区的数据库，并写入最近十五天的数据：

db = database("dfs://db1", VALUE, (date(now()) - 14)..date(now())) //创建一个按照时间列VALUE分区的数据库
data = table((date(now()) - 14)..date(now()) as cdate, 1..15 as val) //创建一个table，时间列为最近15天
tbl = db.createPartitionedTable(data, "table1", `cdate)
tbl.append!(data)

接着，我们使用 setRetentionPolicy函数做如下配置：

超过五天（120h）的数据将会被迁移至冷数据层，超过三十天（720h）的数据将会删除。因为 database 只有一层 VALUE 分区，所以时间列分区维度为0。

setRetentionPolicy(db, 720, 0, 120)

2.3 触发数据迁移

设置之后，DolphinDB 会在后台每隔1小时检查并迁移范围内的数据。这里为了演示方便，我们使用 moveHotDataToColdVolume函数来手动触发迁移。

pnodeRun(moveHotDataToColdVolume) //在每个datanode上执行函数，手动触发迁移

之后，DolphinDB 会发起最近15天到最近7天的分区的数据迁移任务。DolphinDB 使用原有的 recovery 机制实现数据的迁移，可以通过 getRecoveryTaskStatus函数来查看 recovery 任务的执行状态：

rpc(getControllerAlias(), getRecoveryTaskStatus) //可以看到创建了最近15天到最近7天的数据迁移任务

可能的结果样式（省略某些列）：

TaskId	TaskType	ChunkPath	Source	Dest	Status
2059a13f-00d7-1c9e-a644-7a23ca7bbdc2	LoadRebalance	/db1/20230209/4	NODE0	NODE0	Finish
…	…	…	…	…	…

如果配置了多个 coldVolumes，会随机将分区迁往不同的 coldVolumes。

如果 coldVolumes 是本地路径，会使用文件拷贝的方式进行迁移。

如果 coldVolumes 是 S3 路径，会使用 AWS S3 插件进行多线程的上传，速度相对于本地路径可能较慢。

在迁移时，分区会暂时不可用。

当 recovery 任务结束之后，已经被迁移的分区权限变为 READ_ONLY，我们可以使用 select 语句进行查询，但是不能使用 update, delete, append! 等语句进行更新、删除或写入。

select * from tbl where cdate = date(now()) - 10 //查询迁移后的数据
update tbl set val = 0 where cdate = date(now()) - 10 //更新迁移后的数据。会报错 “chunk {ChunkID} is not allowed to write.”

特殊地，我们使用 dropTable，dropParititon，dropDatabase 等 drop DDL 操作来进行数据的整体删除时，对象存储上对应的分区数据也会被删除。这里不再赘述。

您可以使用 getClusterChunksStatus 函数查看对应分区的权限：

rpc(getControllerAlias(), getClusterChunksStatus)

可能的结果样式（省略了某些列）：

chunkId	file	permission
ef23ce84-f455-06b7-6842-c85e46acdaac	/db1/20230216/4	READ_ONLY（已经被迁移的分区）
260ab856-f796-4a87-3d4b-993632fb09d9	/db1/20230223/4	READ_WRITE（没有被迁移的分区）

3 机制介绍

3.1 自动数据迁移触发机制

使用 setRetentionPolicy 函数设置好后，DolphinDB 会使用后台工作线程，每隔1小时按照数据库的时间分区检查在（当前时间 - hoursToColdVolume - 10天，当前时间 - hoursToColdVolume）范围内是否存在需要被迁移的数据，如果存在，则触发数据迁移，生成对应的 recovery 任务。在触发时，工作线程可能不会一次性将所有的符合条件的分区全部迁移，而是以 DB 为单位，每隔一小时迁移一部分 DB 的数据。这样可以减少 recovery 的压力，提高可用性。

举例来说，假设有两个DB：dfs://db1，dfs://db2。它们都按照时间分区。hoursToColdVolume 设置120h，即保留5天内的数据：