万字长文:OceanBase 保姆级教程详解

OceanBase 详解

第一部分 万字长文:OceanBase 保姆级教程详解
第二部分 OceanBase 快速安装部署
第三部分 OceanBase 集成Springboot



前言

目前OceanBase已经逐渐成熟,并展现出强大的实力,越来越多的公司选择从Mysql迁移到OceanBase,并且该项目在github上的star已经来到了7k+,那么他究竟有什么魔力让越来越的公司去选择他,下面将为大家揭晓答案!

在这里插入图片描述


一、OceanBase 是什么?

OceanBase 是一个分布式数据库系统,由阿里巴巴集团自主研发的。它是一种面向在线事务处理 (OLTP) 和在线分析处理 (OLAP) 的新型分布式关系型数据库系统,设计目标是为了解决海量数据的存储和处理问题。OceanBase 基于共享架构,具有高性能、高可用性、高扩展性和高容错性等特点。

以下是一些 OceanBase 的主要特点:

  • 分布式架构:OceanBase 是一个分布式系统,数据存储在多个节点上,每个节点负责存储和处理部分数据。

  • 多副本机制:OceanBase
    采用了多副本机制来保证数据的可靠性和高可用性。数据在多个节点上进行副本存储,即使某个节点发生故障,系统仍然可以继续提供服务。

  • 自动化负载均衡:OceanBase 内置了负载均衡机制,能够自动调整数据的分布和负载,保证各个节点的负载均衡。

  • 分布式事务支持:OceanBase 提供了强一致性的分布式事务支持,能够保证事务的原子性、一致性、隔离性和持久性。

  • 强大的存储引擎:OceanBase 内置了高性能的存储引擎,支持多种数据模型,包括关系型数据、半结构化数据和非结构化数据。

  • 高性能查询:OceanBase 具有优化的查询引擎,能够快速执行复杂的查询操作,支持实时分析和实时报表等应用场景。

  • 可扩展性:OceanBase 具有良好的可扩展性,可以根据业务需求动态扩展节点和存储容量。

总的来说,OceanBase 是一款功能强大的分布式数据库系统,适用于大规模数据存储和处理的场景,如电子商务、金融、物联网等领域。

不过仅仅凭借这些特点能让企业更换现有的数据库我想还不够?先看下面社区的企业案例截图图。

在这里插入图片描述
在这里插入图片描述
从上面的企业案例中我们可以看到,不管是在线教育还是银行或者互联网公司都在做相关的尝试和迁移,而且这么做的的公司越来越多,因为OceanBase不仅仅从性能上较其他关系型数据库有所提升,而且它在存储空间也做了大量优化,让企业用更加低的投入成本,享受比原先更好的服务,那么他们何乐而不为呢。

二、各大公司选择他的原因

.Boss直聘通过OceanBase节省70%存储成本?

Boss直聘我想大家都不陌生,作为一名打工人怎么可能不在上面投简历呢?没在上面投过的我只能说:
在这里插入图片描述

BOSS直聘是一款开创性的在线招聘产品,采用全球首创的互联网“直聘”模式。目前,它已发展成为中国最大的招聘平台之一。其负责的BOSS业务场景主要涉及存储招聘过程中的聊天记录信息,这些数据量极大,每天增量达到5亿到10亿条。与招聘相关的聊天记录通常是一次性写入,之后很少被访问或更新,属于写多读少的特点。

面对不断增长的在线数据,特别是那些访问频率极低甚至从未被访问的历史聊天记录,占用了巨大的在线业务库存储空间,达到PB级别,导致了大量硬件资源的浪费,增加了企业的IT成本。同时,随着数据量的增加,在线数据库变得庞大臃肿,查询效率逐渐下降,给后续的数据变更和扩展带来了阻碍。

为了解决这些问题,他们的解决方案是对历史聊天记录进行冷热数据分离。热数据存储在多个MySQL集群中,采用分库分表的方式管理。每月定期清理过期数据,并将其滚动写入历史归档库。
看起来也没毛病,基本上目前主流的解决方式。
在这里插入图片描述

那么他们在对超大容量的归档库进行选型时候对这几个数据库:MySQL、ClickHouse、OceanBase、某开源分布式数据库(以下简称为DB-U),从存储成本、高可用这两个方面对归档库进行评估。

(一)存储成本

分别写入1亿行相同的单副本数据,并对其磁盘的使用情况进行对比:

在这里插入图片描述
这成本一目了然了吧,知道该选谁了吧,但毕竟要知道啥原因导致的存储成本降低。

ClickHouse 存储引擎调研
ClickHouse 存储成本低的原因显而易见,就是因为它的存储引擎是基于列存的。相比行存存储引擎,ClickHouse 同一列中的数据属于同一类型,压缩效果显著。列存往往有着高达十倍甚至更高的压缩比,节省了大量的存储空间,降低了存储成本。

1706241332

但对于历史归档库一般都是写多读少的场景,像 ClickHouse 这种纯列存的存储引擎在这里并不能发挥出查询性能好的优势,相反列存引擎写入性能差的劣势还被放大了。

OceanBase 存储引擎调研
1. 存储引擎架构。

OceanBase 的存储引擎基于 LSM Tree 架构,将数据分为基线数据(放在 SSTable 中)和增量数据(放在 MemTable/SSTable 中)两部分,其中基线数据是只读的,一旦生成就不再被修改;增量数据支持读写。
在这里插入图片描述

数据库的DML(数据操作语言)操作,包括插入、更新、删除等,首先写入内存中的MemTable。这使得写入性能相当于内存数据库,非常适合历史归档库写入频率高于读取的场景。当MemTable达到一定大小时,会转储到磁盘成为增量的SSTable(持久化存储表,见图中红色箭头部分)。这个过程是批量的顺序写,相比B+树的离散随机写,大大提高了写入性能。

2. 数据压缩技术。

作为一款 HTAP 数据库产品, OceanBase 使用基于 LSM-Tree 架构的存储引擎,同时支持 OLTP 与 OLAP 负载,这种存储架构提供了优秀的数据压缩能力。在 OceanBase 中,增量数据会写入 clog 和 memtable 中, OceanBase 的 memtable 是内存中的 B+ 树索引,提供高效的事务处理能力。 memtable 会定期通过 compaction 生成硬盘持久化数据 sstable ,多层 sstable会采用 leveled compaction 策略进行增量数据重整。sstable 中数据块的存储分为两层,其中 2M 定长的数据块(宏块)作为 sstable 写入 I / O 的最小单元,存储在宏块中的变长数据块(微块)作为数据块压缩和读 I / O 的最小单元。

(二)高可用和稳定性

除了存储成本以外,他们还对归档库选型中的候选者 ClickHouse 和 OceanBase 的高可用能力和稳定性进行了对比。

ClickHouse
clickHouse 需要依赖来zookeeper,通过Replication 复制来实现集群之前副本的数据同步,保证了在不同的物理设备上有多个数据副本,减少了数据丢失的风险。
不过clickHouse 不支持线性扩展,当数据增长过快,可能会导致整个集群不可用,另外由于依赖zookeeper,那么在排查问题时链路也增加了,并且当zookeeper出现问题,也容易造成数据丢失。

OceanBase
OceanBase 是原生的分布式数据库,原生就可以保证多个数据副本之间的一致性,它们利用了基于 Paxos 分布式一致性协议保证了在任一时刻只有当多数派副本达成一致时,才能推选一个 Leader, 保证主副本的唯一性来对外提供数据服务。也就是说,OceanBase 通过多副本和 Paxos 协议来保证数据库的高可用。

1706241467

相比 MySQL 和 ClickHouse 的高可用方案方案,OceanBase 的高可用方案降低了我们的运维难度和业务变更难度。而且 OceanBase 的多地多副本架构和 Paxos 一致性协议,还能够支持数据副本分别存储在同城和异地,实现异地容灾。

1706241475

综合考虑他们最终选择了OceanBase ,从落地实践,到最终70%业务成本节省,对他们来说选择OceanBase是正确的。

三、 OceanBase 自带智能化的白屏 OCP 平台工具

OceanBase Control Platform (OCP) 是一个管理平台,专门用于管理OceanBase数据库系统。它提供了一套丰富的功能和工具,用于监控、调整、配置和管理OceanBase数据库集群的各个方面。

以下是OCP的主要特点和功能:

  • 监控与警报:OCP允许管理员实时监控OceanBase数据库集群的性能指标和运行状态。它可以收集和展示各种关键指标,如吞吐量、延迟、负载情况等,并提供警报功能,及时通知管理员可能出现的问题或异常情况。

  • 配置管理:OCP提供了集中式的配置管理功能,管理员可以通过界面轻松地管理OceanBase数据库集群的配置信息。这包括数据库参数、节点配置、集群拓扑等。

  • 性能调优:OCP提供了性能调优工具,帮助管理员优化数据库集群的性能。通过分析性能指标和数据库配置,管理员可以调整参数和配置,以提升系统性能和稳定性。

  • 版本管理:OCP支持OceanBase数据库软件的版本管理。管理员可以通过OCP界面方便地进行数据库软件的升级、回滚和版本控制。

  • 安全管理:OCP提供了安全管理功能,包括用户管理、权限管理等。管理员可以通过OCP管理用户账号、角色权限等安全相关的配置。

  • 故障管理:OCP具有故障管理功能,可以帮助管理员及时识别和处理数据库集群中的故障。它提供了故障诊断工具和故障处理指南,帮助管理员快速恢复服务。

  • 可扩展性:OCP是一个可扩展的平台,支持插件式开发和定制化。管理员可以根据实际需求开发定制化的功能模块,扩展OCP的功能和能力。

  • 在这里插入图片描述

总的来说,OceanBase Control Platform (OCP) 是一个功能强大的管理平台,为管理员提供了全面、便捷的管理工具和功能,帮助他们有效地管理和运维OceanBase数据库集群。

#四、 OceanBase 快速安装部署

想要快速体验oceanbase的可参考docker 安装方式
https://www.oceanbase.com/docs/common-oceanbase-database-cn-1000000000507531

五、集成Springboot
https://www.oceanbase.com/docs/common-oceanbase-database-cn-1000000000508409

参考文档:
https://open.oceanbase.com/blog/8600130
https://open.oceanbase.com/blog/8983073840

总结

如果对以上的内容有疑问或者想交流可在评论区留下您的看法。

MySQL多数据源是指在一个应用程序中同时使用多个不同的MySQL数据库来存储和管理数据的技术。它可以帮助开发人员更灵活地处理各种数据库操作,提高程序的性能和可扩展性。下面是一个完整的MySQL多数据源教程。 一、设置数据库连接信息 1. 在应用程序的配置件中,创建多个数据库连接的配置项。例如,可以为每个数据源创建一个配置项,分别命名为db1、db2等。 2. 在配置项中,设置每个数据源的连接信息,包括数据库地址、用户名、密码等。 二、创建数据源管理器 1. 创建一个数据源管理器类,用于管理多个数据源。该类需要实现数据源的动态切换和获取。 2. 使用Java的线程安全的数据结构,如ConcurrentHashMap来存储数据源信息。将配置件中的数据库连接信息加载到数据结构中。 3. 实现方法来切换不同的数据源,通过传入数据源的名称来切换到对应的数据库。 三、实现数据源切换 1. 在应用程序中,根据业务需求选择需要使用的数据源。可以通过调用数据源管理器的方法来切换数据源。 2. 在DAO层的代码中,根据当前使用的数据源名称,选择对应的数据源进行数据库操作。 四、使用多数据源进行数据库操作 1. 在DAO层的代码中,区分不同的数据源,并将数据库操作的代码包装在对应的数据源中。 2. 在业务层的代码中,调用DAO层的方法来进行数据库操作。不同的数据源会自动切换。 五、处理事务 1. 如果需要在一个事务中操作多个数据源,可以使用分布式事务的方式来处理。 2. 可以使用开源的分布式事务框架,如Atomikos、Bitronix等来实现多数据源的事务管理。 六、监控和维护 1. 使用监控工具来监控多个数据源的使用情况,包括连接数、查询次数等。 2. 定期对数据库进行维护,包括索引优化、数据清理等工作,以保证数据库的性能和稳定性。 通过以上步骤,我们可以实现MySQL多数据源的配置和使用。使用多数据源可以更好地管理和处理不同的数据库操作,在提高程序性能和可扩展性的同时,也提供了更灵活的数据操作方式。同时,需要注意合理选择和配置数据源,以及监控和维护数据库,以保证系统的运行效率和数据的安全性。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值