OceanBase 生态产品：时序数据库CeresDB 正式发布 1.0 版本

OceanBase数据库官方博客

于 2023-03-07 11:25:47 发布

阅读量736

点赞数

分类专栏：新闻动态文章标签： oceanbase 时序数据库 rust

本文链接：https://blog.csdn.net/OceanBaseGFBK/article/details/129378949

版权

新闻动态专栏收录该内容

34 篇文章 0 订阅

订阅专栏

欢迎访问OceanBase官网获取更多信息：https://www.oceanbase.com/

CeresDB 是一款拥有计算存储分离架构的分布式时序数据库，其存储层可以基于 OceanBase KV、OSS 等。经过近一年的开源研发工作，CeresDB 1.0 现已正式发布，达到生产可用标准。

CeresDB 团队已经在时序数据领域进行了 5 年的深耕。但是随着在领域内研究的深入以及用户场景的逐渐复杂化，我们发现了若干传统时序数据库尚未很好解决的一些技术问题，比如：

高效处理高基数 Tag 组合（时间线膨胀问题）与分析型工作负载
现代且完备的分布式技术方案
云原生与计算存储分离

因此，CeresDB 开源项目发起之初，我们就将其定义为下一代的云原生时序数据库。希望它能同时较好支持传统时间序列工作负载（timeseries workload）与分析型工作负载（analytic workload），并且能拥有一个现代的云原生分布式技术架构，支持从简单的单节点到庞大分布式集群等各种部署场景。

这样的设计目标，也直接决定了我们过去一年在研发 CeresDB 1.0 过程中主要的精力投入方向。目前，随着 CeresDB 1.0 的正式发布，我们认为以上问题均得到了基本的解决。

CeresDB 1.0核心特性介绍

▋ 存储引擎

支持列式混合存储
高效 XOR 过滤器

▋ 云原生分布式

实现了计算存储分离（支持 OSS 作为数据存储，WAL 实现支持 OBKV、Kafka）
支持 HASH 分区表

▋ 部署与运维

支持单机部署
支持分布式集群部署
支持 Prometheus + Grafana 搭建自监控

▋ 读写协议

支持 SQL 查询与写入
实现了 CeresDB 内置高性能读写协议，提供多语言 SDK
支持 Prometheus，可以作为 Prometheus 的 remote storage 进行使用

▋ 多语言读写 SDK

实现了四种语言的客户端 SDK：Java、Python、Go、Rust

核心技术方案

这里简单介绍一下 CeresDB 在过去一年投入的几个重点方向的技术方案，由于篇幅限制，这里仅作简要说明。

▋ 存储引擎探索

经典时序模型会使用倒排索引的方式对数据进行组织。然而在某些场景如短生命周期 pod 监控、业务数据监控等，会产生高基数时间线，进而导致倒排索引膨胀问题，写入查询性能会急剧变差。

写入时由于索引的复杂性高，写入耗时变高
查询时由于索引的有效性低，查询耗时变高

下图为经典时序模型的示意图：

为了解决高基数的问题，CeresDB 受 InfluxDB IOx 以及各类分析型数据库的启发，采用以下方式对时序数据进行组织来实现存储和查询：

列式存储 + 混合存储
分区扫描 + 剪枝 + 高效 fitler

下图展示了 CeresDB 内部的数据组织形式：

▋ 分布式方案

CeresDB 采用存储计算分离架构，如下图所示。CeresDB 实例本身可以不存储任何数据，在此基础上可以较好实现关键的几项分布式特性，比如：计算存储弹性扩缩容、服务高可用和负载均衡等等。

CeresDB 分布式集群主要由以下部分组成：

CeresMeta Cluster：集群的元数据中心，负责集群的整体调度；
CeresDB：一个 CeresDB 实例, 负责时序数据组织与存储；
WAL Service（外部）：WAL 服务，在集群方案中，用于存储实时写入的数据；
Object Storage（外部）：对象存储服务，用于存储从 memtable 生成的 SST 文件。

详细的集群方案可以参看官方文档：https://docs.ceresdb.io/cn/design/clustering.html