先看不同数据库的问题
因此,对于IoTDB提出的需求(或者说IoTDB的特点)集中体现在:
- 高速写入
- 高压缩比
- 高效查询
- 对于时间序列的组织管理
- 对接大数据生态
那么,本文将会从IoTDB运用的列式存储、存储引擎,Tsfile介绍IoTDB数据存储的相关问题
行式存储 VS 列式存储
由上图可以看出行式存储是每一行的所有数据存在一个block中,各个block连续存储,列式存储就是每一列的所有数据存在一起,不同列之间可以分开存储。
对比如下表:
行式存储 | 列式存储 | |
---|---|---|
写入 | 插入方便 | 由于每一列单独存储,所以插入修改会繁琐 |
查询 | 需要读取所有数据,适合随即查询,不适合扫描 | 只读取涉及到的列,缺点在于查询完成时,需要将被查询的列重新组装 |
空间 | 不利于压缩,占空间大 | 由于把一列数据保存在一起,而一列的数据类型相同,可以为每一列创建一个字典,存储的时候就仅存储数字编码即可,降低了存储空间需求 |
存储引擎
IoTDB 存储引擎基于 LSM Tree 结构设计,写入的数据先记录 WAL,再写到内存 memtable,在后台逐步刷到磁盘 TsFile;磁盘上的 TsFile 通过一定的规则进行 Compaction,保证查询效率。
LSM树
Log Structured Merge Tree, 一种分层,有序,面向磁盘的数据结构
核心思想:磁盘批量的顺序写要远比随机写性能高出很多
优缺点:大大提升了数据的写入能力,牺牲部分读取性能
应用场景:数据是被整体访问的
WAL
预写式日志(Write-Ahead Log)
在将数据写入内存表之前,首先将其记录到预写式日志中,该日志位于磁盘上。预写式日志的目的是确保数据持久性,并防止在系统故障(例如崩溃、停电)的情况下丢失数据。
memtable
内存表,一种在数据被刷新为SSTables之前临时保存最近写入数据的内存数据结构。
TsFile
时序数据文件(TimeSeriesFile)
ChunkGroup
一个设备一段时间的数据块
Chunk:一个物理量一段时间的数据
Page:一个物理量一段时间的数据
(Page中存具体的数据,Chunk会包含多个Page)
索引结构
序列内
三级结构:Page,Chunk,文件级
序列间
元数据索引树