TimescaleDB简介及基本操作
简介
TimescaleDB是一个针对时序数据的开源数据库。它的目标是兼具NoSQL数据库的天然扩展能力和传统关系型数据库的可靠性与查询支持。它的核心概念主要包括Hypertable(超表)和Chunk(块)。
TimescaleDB在部署形式上是作为PG的扩展extension,它运行在PG内部,使用了同一个进程。
TimescaleDB对PG的扩展操作是“库”维度上的,对某个库的操作不会影响其它库。若要扩展多个库,则需要进行多次扩展操作。
核心概念
Hypertable 超表
用户在TimescaleDB中主要通过Hypertable与数据交互。它是一个在所有的空间和时间上连续的抽象的表,可以通过标准SQL进行查询。实际上,Hypertable是许多实际存储数据的单个表的抽象或虚拟视图,它们称为chunks(块)。
通过将hypertable的数据划分为一个或多个维度来创建chunk。所有hypertable都由属于时间列的值进行分区,时间列可以是时间戳、日期或各种整数形式。若时间分区间隔为1天,则时间戳属于同1天的行位于同1个chunk内,不同天的行位于不同的chunk。
Hypertable也可以按附加列来分区(设备/服务器/用户id、位置等)。通常这种附加列上的分区使用hash散列(将数据映射到特定数量的hash buckets中),不过也可以使用基于间隔的分区。这种按时间和附加维度进行分区的hypertable被称为“时空分区”。
Chunk 块
每个chunk都是用标准数据库表实现的。在PG中,chunk实际上是hypertable的“子表”。Chunk包括了分区范围的约束(如时间间隔范围),空间分区也会反映为chunk约束,因此hypertable中所有的chunk在空间上都是不重叠的。
插入hypertable的行会根据这些时空维度而“路由”到对应的chunk中。对于查询,只会将命令推送到适当的chunk去执行,排除掉与之无关的chunk(提高查询速度)。这部分操作对用户是无感的,用户只需要用标准SQL语句操作hypertable。
优势
内存数据
可以配置chunk使其将数据储存在内存中,因此对于最近时间数据的插入和查询是在操作内存中的数据。不过,TimescaleDB并不要求chunk只能存储在内存,而是遵循磁盘页面上的LRU缓存规则来维护内存数据和索引缓存。
本地索引
索引是独立构建在每个chunk上的。这确保来自最新chunk的数据和索引都驻留在内存中,以便保证更新索引的速度。这对用户也很友好,用户只需要在hypertable创建一个索引,这些操作和配置就会被推送到现有和新的chunk中。
易于数据保留
用户可以根据时间范围快速删除chunk,也可以创建数据保留策略以实现自动化,这种策略使用其内部作业调度框架。基于块的删除要比基于行的删除快很多,因为前者只是删除一个文件,后者是删除单个行(这需要代价高昂的vacuum操作并进行gc和碎片整理)。
弹性扩展能力
TimescaleDB支持多节点的水平扩展。与传统的数据库分片不同(需要将分片迁移到新添加的服务器),TimescaleDB支持弹性添加或删除新服务器,而不需任何“再平衡”操作。添加新服务器后,原chunk可以保留在当前位置,未来时间创建的chunk放在新服务器上进行分区。TimescaleDB的planner可以处理这重新配置中的查询任务,它始终知道哪个节点上存了哪些chunk,随后可以通过异步迁移chunk或按需通过数据保留策略处理服务器负载。
数据复制(未来版本将支持)
通过在分布式hypertable上配置replication factor以便在节点故障后,以事务方式在节点之间对chunk进行复制备份。
数据迁移(未来版本将支持)
Chunk可以以事务方式单独迁移。这种迁移可以跨越磁盘的物理空间,例如从快速但昂贵的磁盘移动到更慢但廉价的存储上。这种迁移也可以是在分布式hypertable的节点之间进行,例如添加服务器后的异步再平衡或者停掉某台服务器。
使用方案
首先需要在pg的lib中添加编译过的timescaledb包,可以上官网下载自行编译。
在postgresql的配置文件postgresql.conf中增加一行内容如下:
shared_preload_libraries = timescaledb
在/etc/ld.so.conf.d/目录下新增一个文件timescaledb.conf,然后执行命令如下:
sudo ldconfig
接着按顺序执行以下命令
su postgres -c psql # 登录pg
create database XXX; # 创建数据库
\c XXX; # 切换至XXX数据库
create extension if not exists timescaledb; # 创建timescaledb扩展
出现如下图所示内容,则代表创建扩展成功。
在切换至XXX数据库后,可以执行如下命令,查看当前数据库已经使用的扩展:
\dx
若显示内容如下图,则代表成功创建。
删除扩展只需要在XXX数据库中执行以下命令:
drop extension timescaledb
当对TimescaleDB进行删除操作时,若该库中有某些表依赖于它,则drop操作会失败。如果需要强制删除,则需要改为执行如下命令进行级联删除:
drop extension timescaledb cascade
执行完毕后,对应的chunk的数据也会丢失,因此执行该操作前请慎重考虑,确保数据不再需要或已进行备份。
基本操作
创建超表
# 创建一个标准表
CREATE