国产YMatrix数据库调研分析报告(四维纵横)

目录

1.YMatrix简介

1.1.YMatrix数据库系统定位

1.1.创始团队介绍​编辑

1.2.YMatrix在数据流中的定位​编辑

1.3.YMatrix的发展历程​编辑

2.YMatrix技术架构

2.1.YMatrix超融合架构​编辑

2.2.YMatrix内部架构​编辑

2.3.YMatrix核心性能​编辑

3.YMatrix技术实现

3.1.什么是时序数据?

3.2.时序数据特性有哪些?

3.3.为什么需要使用MXKV数据类型?

3.4.导数方式

3.4.1.YMatrix的多种导数方式​编辑

3.4.2.导数工具-MatrixGate

3.5.向量化执行引擎及优化

3.5.1.向量化执行殷勤

3.5.2.Runtime Filter优化技术

3.5.3.Runtime Filter执行详细信息

3.6.MARS2存储引擎及优化

3.6.1YMatrix的多种存储引擎

2.6.2.MARS2存储引擎

2.6.3.MARS2元数据与MINMAX过滤

2.6.4.MARS2存储引擎时序函数(time_bucket)

2.6.5.MARS2存储引擎时序函数(time_bucket_gapfill)

2.6.6.持续聚集

2.6.7.数据分批合并场景

2.6.8.滑动窗口

2.6.9.自动分区管理

4.总结


1.YMatrix简介

1.1.YMatrix数据库系统定位

  • 超融合架构:微内核MPP(Massively Parallel Processing)
  • 微内核:TPHEAP 存储引擎 + 火山执行引擎),时序(MARS2 存储引擎 + 向量化执行引擎)。
  • 关注全场景性能:写入能力、时序查询能力、OLAP 分析、机器学习性能以及 OLTP 能力等。
  • 北京四维纵横自研,20208成立,20215月通过信通院测试并发布MatrixDB 4.0
  • 北京四维纵横内部统称其为超融合数据库,主要发展方向为时序场景,兼容适配全场景。

1.1.创始团队介绍

1.2.YMatrix在数据流中的定位

1.3.YMatrix的发展历程

2.YMatrix技术架构

2.1.YMatrix超融合架构

2.2.YMatrix内部架构

2.3.YMatrix核心性能

3.YMatrix技术实现

3.1.什么是时序数据?

时序数据(Time-series Data)是充满变化的,它是业务系统中正在发生的、无限时长的动态电影。它具有丰富而强大的利用价值,不仅可以为企业降本增效提质,还可以为奋斗中的理想者找到合适的开拓方向。

YMatrix 认为时序数据主要由以下部分构成:

标签(Tag):

某些静态属性,即不会受时间流逝影响的固定属性。譬如冰箱品牌、设备编号、产地、购买地、出厂时间等。

指标(Metric):

某些动态属性,即会随时间流逝不断变化的属性。譬如冰箱的温度、湿度、耗电量等。有时候指标也称测点,即可测量的点。

时间戳(Timestamp):

  某个时间点的值,譬如 2023-02-10 20:00:00。

数据点(Point):

某个时间时刻某个指标的值,譬如海尔冰箱在 20:00 的温度数据是 6.2。

3.2.时序数据特性有哪些?

YMatrix 中时序数据的定义:时间序列数据,表示与时间强相关的有顺序的一系列数据。应用中通常表现为指标数据在不同时间点采集到的一系列数据点。

1. 采集到的数据总是记录为一个 新行
2. 数据通常按 时间顺序 到达数据库。
3. 时间是主轴 (时间间隔可以是规则的或不规则的)。
4. 实效性 。越新的时序数据价值越大,价值密度随时间推移而逐渐降低。
5. 可降采样 。降采样即使用 GROUP BY 语句将原始数据按更宽广的时间间隔分组,并统计出每组数据的关键特征信息。降采样不仅可以降低存储开销,还能保留关键数据特征,便于分析数据的历史趋势,预测未来趋势等。
6. 需与关系数据结合才具价值 。没有结构化的关系数据提供上下文信息,时序数据就只是一个数字。

业务场景

数据操纵语句(DML)

写入方式

查询需求

并发度

时序

INSERT / Appendly-only

高频流式写入

基于时间的点查、明细、聚集;关联分析、复杂分析

高并发

OLTP

INSERT / UPDATE / DELETE

高频写入

点查

高并发

OLAP

INSERT / 少量 UPDATE / 少量 DELETE

低频批量写入(ETL)

关联、聚集

低并发

3.3.为什么需要使用MXKV数据类型?

1、需要采集的指标过多,超过postgresql最多1600列的限制。

2、不同型号的设备采集指标集合差别较大,导致在回传数据时有大量的NULL值。

(无法预知指标集,可能导致表schema要经常变)

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值