第五章:OB Server的存储引擎

传统数据库有随机写、写放大等问题

大量随机写:buffer pool和表空间页面“一一对应”,数据更新时会在磁盘上产生频繁的随机写(check point)

写放大:随机写导致SSD的写放大问题,影响性能及磁盘寿命。 

读数据:如果buffer Pool中有,则直接从内存读,如果没有,则从硬盘中提取到buffer pool中

可以提升热数据的读取速度,减少时延。

写数据:修改数据时,先将数据写到buffer pool,再刷新到磁盘

通过check point将脏数据刷新到硬盘中,造成随机写和写放大:

数据页离散分布,造成大量随机写,延迟大,影响性能。

SSD上的随机写会导致严重的写放大,不仅影响写操作性能,而且显著降低SSD的寿命。

一般使用高端读写型的SSD

准“内存数据库”+LSM-Tree存储,避免随机写

                   

增量数据直接写入内存,并将Redo-Log落盘及同步给从副本后,即可通知业务成功

内存占用率达到阈值后冻结MemTable,并执行转储/合并等操作以释放内存空间

内存增量数据批量合并到磁盘,以顺序写代替随机写

读数据时,需要从热点缓存、MemTable以及转储SSTable中读取数据,保证数据一致性。

技术优势:

读写分离:读内存和写内存分开

提升写速度:准内存处理,数据修改主要是内存操作,无频繁check point操作,提高写性能。

避免随机写:内存的脏数据批量合并之后,顺序写入SSD硬盘,避免随机写,提高写性能并延长SSD寿命。

数据持久性:为避免内存中数据丢失,redo-log以WAL机制实施落盘,保证数据持久性。

降低成本:磁盘数据按主键有序排列,磁盘碎片少,并提供快速检索能力。使用普通读密集型SSD硬盘。

底层存储会划分微块和宏块,由数据库内部管理。

 OceanBase转储和合并简介

                                             

转储操作(minor freeze):目的是不断的把内存的MemTable写入磁盘以释放内存空间。

转储过程首先会冻结MemTable(阻止当前的MemTable再有新的写入),并生成新的活跃MemTable。

Partition副本可以独立决定冻结当前MemTable,并转储到磁盘上。

转储出的数据只与相同大版本的增量数据做数据归并,不与全局静态数据合并。

合并操作(Major freeze):是将动静态数据做归并,会比较费时。当转储产生的增量数据积累到一定程度时,通过Major freeze实现大版本的合并。

磁盘数据按主键有序排列,提供快速检索能力。内存增量数据(MemTable)分多级做批量归并(Minor-Major),最终整合到磁盘(SSTable),对整体性能影响较小。

OceanBase转储和合并区别:
转储和合并的最大区别在于,合并是集群上所有的Partition在一个统一的快照点和全局静态数据进行合并的行为,是一个全局的操作,最终形成一个全局快照。转储和合并的对比如下:

转储(Minor freeze)合并(Major freeze)
Partition级别,只是MemTable的物化全局级别,产生一个全局快照。
每个Partition独立决定自己MemTable的冻结操作,主备Partition无需保持一致。全局Partition一起做MemTable的冻结操作,要求主备Partition保持一致。
转储只与相同大版本的Minor SSTable合并,产生新的Minor SSTable,所以只包含增量数据,最终被删除的行需要特殊标记。合并会把当前大版本的SSTable和MemTable与前一个大版本的全量静态数据进行合并,产生新的全量数据。

控制内存数据落盘(“转储”及“合并”)

触发memstore内存dump操作的阈值

freeze_trigger_percentage参数;默认值是70,即memstore的内存写满70%时,自动触发转储或者合并,具体行为取决于参数设置。

转储(minor freeze)的时机

内存达到阈值后自动触发。

手工触发:以root@sys用户执行alter system major freeze;命令

转储次数已满:当转储次数已经达到major_compact_trigger参数指定的次数时,自动触发合并;值为0时则关闭转储,直接触发合并

支持轮转合并,多个Zone按次序合并。

控制内存数据落盘(“转储”及“合并”)-其他说明

是否可以彻底关闭合并?

enable_major_freeze=False;建议保持默认值True

enable_manual_merge=True;开启手工合并,需要手工触发所有的合并操作。极少数特殊运维场景会用到,不建议使用。

合并的并发线程数:
merge_thread_count参数控制并发度,并发的粒度为分区。

默认值是0,值过大可能会影响在线业务性能。

少数快速写内存场景中,可以适当调大并发度,加快内存dump的速度。

查看内存使用情况

查看memstore的使用情况

show parameters like 'memstore_limit_percentage';

__all_virtual_tenant_memstore_info,按租户区分。

查看内存使用情况

查看memstore的使用情况

show parameters like 'memstore_limit_percentage'; __all_virtual_tenant_memstore_info,按租户区分

查看内存使用情况

查看非memstore内存使用情况

__all_virtual_memory_info,按租户区分

查看内存使用情况

查看非memstore内存分类情况 __all_virtual_memory_info,按租户和模块(mod_name)区分

统计每台机器上数据盘的使用情况 __all_virtual_disk_stat;

统计每个zone里数据盘的使用情况 __all_virtual_disk_stat,__all_server;

检查集群合并状态

检查集群合并的状态:
select * from __all_zone where name = 'merge_status';

LSMTree存储高数据压缩率,降低存储需求。

通过数据编码压缩技术实现高压缩,比通用的压缩 算法更懂数据,从而实现更高的压缩效率。

                                                              

        字 典 :把重复性较高的数据进行去重,把去重后的数据建立字典,而把原来存放数据的地方 存成指向特定字典下标的引用。数据访问时无需解码。

第二次压缩是通用压缩,使用lz4等压缩算法对encoding之后的数据再做一次瘦身。

支持snappy、lz4、zstd等压缩算法,允许用户在压缩率和解压缩时间上做各自的权衡

使用相同的块大小(16KB)以及相同的压缩算法(lz4),同样的数据存放在OceanBase中,要比在MySQL 5.7中平均节省一半的空间。

查询性能基本没有变化,写入 (合并)性能有了较大的提升。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Observer数据库是一个开源的、分布式的NoSQL数据库,它被设计用于处理大量的实时数据流。Observer数据库是基于Apache Kafka和Apache Cassandra构建的,使用Java语言编写,支持多种数据类型、多种数据源和多种查询方式。 以下是Observer数据库的教程: 1. 安装和配置Observer数据库 首先,你需要下载Observer数据库的二进制文件并解压缩。然后,你需要配置Observer数据库的环境变量和配置文件。在配置文件中,你需要指定Observer数据库数据目录、日志目录、监听地址和端口等参数。 2. 创建和管理数据库Observer数据库中,你可以创建多个数据库,每个数据库都有自己的名称和数据集合。你可以使用Observer数据库的命令行工具或API来创建和管理数据库。例如,你可以使用以下命令创建一个名为“mydb”的数据库: CREATE DATABASE mydb; 然后,你可以使用以下命令切换到“mydb”数据库: USE mydb; 你还可以使用以下命令列出所有的数据库: SHOW DATABASES; 3. 创建和管理数据集合 在Observer数据库中,数据集合类似于关系型数据库中的表。你可以使用Observer数据库的命令行工具或API来创建和管理数据集合。例如,你可以使用以下命令创建一个名为“mycollection”的数据集合: CREATE COLLECTION mycollection; 然后,你可以使用以下命令插入一条数据到“mycollection”数据集合中: INSERT INTO mycollection VALUES (1, 'John', 'Doe'); 你还可以使用以下命令查询“mycollection”数据集合中的所有数据: SELECT * FROM mycollection; 4. 使用Observer数据库的API Observer数据库提供了多种编程语言的API,包括Java、Python、Go等。你可以使用这些API来连接Observer数据库并执行各种操作。例如,你可以使用Java API连接Observer数据库并查询数据集合中的数据: import com.observerdb.client.*; public class ObserverDemo { public static void main(String[] args) { ObserverClient client = new ObserverClient("localhost:9092"); client.useDatabase("mydb"); ObserverResultSet rs = client.executeQuery("SELECT * FROM mycollection"); while (rs.next()) { System.out.println(rs.getInt("id") + ", " + rs.getString("name") + ", " + rs.getString("address")); } client.close(); } } 以上就是Observer数据库的教程。如果你想要深入学习Observer数据库,你可以参考官方文档和社区资源。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

柯西极限存在准则

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值