MRS CDL架构设计与实现

MRS CDL是FusionInsight MRS的实时数据同步服务,基于Kafka Connect,支持从多种OLTP数据库到大数据存储的数据同步。它采用Oracle LogMinner和Debezium进行CDC事件捕获,借助Kafka实现高并发和高吞吐量。CDL支持数据直接入湖,如HDFS、OBS和Hudi,提供统一数据格式和表过滤功能,以增强数据管理和同步效率。
摘要由CSDN通过智能技术生成

1 前言

MRS CDL是FusionInsight MRS推出的一种数据实时同步服务,旨在将传统OLTP数据库中的事件信息捕捉并实时推送到大数据产品中去,本文档会详细为大家介绍CDL的整体架构以及关键技术。

2 CDL的概念

MRS CDL(Change Data Loader)是一款基于Kafka Connect的CDC数据同步服务,可以从多种OLTP数据源捕获数据,如Oracle、MySQL、PostgreSQL等,然后传输给目标存储,该目标存储可以大数据存储如HDFS,OBS,也可以是实时数据湖Hudi等。

2.1 什么是CDC?

CDC(Change Data Capture)是一种通过监测数据变更(新增、修改、删除等)而对变更的数据进行进一步处理的一种设计模式,通常应用在数据仓库以及和数据库密切相关的一些应用上,比如数据同步、备份、审计、ETL等。

CDC技术的诞生已经有些年头了,二十多年前,CDC技术就已经用来捕获应用数据的变更。CDC技术能够及时有效的将消息同步到对应的数仓中,并且几乎对当前的生产应用不产生影响。如今,大数据应用越来越普遍,CDC这项古老的技术重新焕发了生机,对接大数据场景已经是CDC技术的新使命。

当前业界已经有许多成熟的CDC to大数据的产品,如:Oracle GoldenGate(for Kafka)、 Ali/Canal、Linkedin/Databus、Debezium/Debezium等等。

2.2 CDL支持的场景

MRS CDL吸收了以上成熟产品的成功经验,采用Oracle LogMinner和开源的Debezium来进行CDC事件的捕捉,借助Kafka和Kafka Connect的高并发,高吞吐量,高可靠框架进行任务的部署。

现有的CDC产品在对接大数据场景时,基本都会选择将数据同步到消息队列Kafka中。MRS CDL在此基础上进一步提供了数据直接入湖的能力,可以直接对接MRS HDFS和Huawei OBS以及MRS Hudi、ClickHouse等,解决数据的最后一公里问题。

场景

数据源

目标存储

实时数据分析

Oracle

Huawei OBS, MRS HDFS, MRS Hudi, MRS ClickHouse, MRS Hive

实时数据湖分析

MySQL

Huawei OBS, MRS HDFS, MRS Hudi, MRS ClickHouse, MRS Hive

实时数据湖分析

PostgreSQL

Huawei OBS, MRS HDFS, MRS Hudi, MRS ClickHouse, MRS Hive

表1 MRS CDL支持的场景

3 CDL的架构

作为一个CDC系统,能够从源目标抽取数据并且传输到目标存储中去是基本能力,在此基础上,灵活、高性能、高可靠、可扩展、可重入、安全是MRS CDL着重考虑的方向,因此,CDL的核心设计原则如下:

  • 系统结构必须满足可扩展性原则,支持在不损害现有系统功能的前提下添加新的源和目标数据存储。
  • 架构设计应当满足不同角色间的业务侧重点分离
  • 在合理的情况下减少复杂性和依赖性,最大限度地降低架构、安全性、韧性方面的风险。
  • 需要满足插件式的客户需求,提供通用的插件能力,使得系统灵活、易用、可配置。
  • 业务安全,避免横向越
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值