阿里数据同步中间件canal(一)基本介绍

背景

阿里巴巴 B2B 公司为解决杭州和美国双机房部署,存在跨机房同步的业务需求 ,从 2010 年开始,开始尝试数据库日志解析,获取增量变更进行同步,由此衍生出了增量订阅和消费业务,从此开启一段新纪元。

是什么

canal [kə’næl],译意为水道/管道/沟渠
主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费

官方Wiki

https://github.com/alibaba/canal/wiki

原理

mysql主备复制

canal的原理和mysql的主备复制原理相似,先提下mysql主备复制实现原理
mysql的主从原理
从上图来看,mysql主备复制分成三步:
1.master将改变记录到二进制日志(binary log)中(这些记录叫做二进制日志事件,binary log events,可以通过show binlog events进行查看);
2.slave将master的binary log events拷贝到它的中继日志(relay log);
3.slave重做中继日志中的事件,将改变反映它自己的数据。

mysql的binlog介绍

在MySql中常用的数据库表结构变更DDL和DML都会产生对应的操作日志,通过这个操作日志一般可以用来进行MySql故障后的数据恢复,以及MySql的主从同步使用;那么这个日志就是我们常说的MySql的binlog日志,binlog日志是一个二进制日志文件,并非是纯粹的文本文件。

canal原理

在这里插入图片描述
1.canal 模拟 MySQL slave 的交互协议,伪装自己为 MySQL slave ,向 MySQL master 发送 dump 协议
2.MySQL master 收到 dump 请求,开始推送 binary log 给 slave (即 canal )
3.canal 解析 binary log 对象(原始为 byte 流)

canal架构图

在这里插入图片描述
说明
1.server代表一个canal的运行实例,对应一个jvm
2.instance对应一个数据队列(1个server对应n个isntance)
instance模块
EventParser (数据源接入,模拟slave协议和master进行交互,协议解析)
EventSink(parse和store的连接器,进行数据过滤,加工,分发等工作)
EventStore(数据存储)

canal项目模块介绍

在这里插入图片描述
canal项目是基于maven构建的,将不同的功能模块划分了不同的子模块。
我们可以简单执行可执行模块deployer,也可以将模块通过maven依赖的方式,将你需要的子模块引入到你自己的项目中进行使用开发。

核心模块功能:

deployer模块:独立部署模块,用于canal-server的独立启动,包括本地配置解析、拉取远程配置、启动canal-server。
server模块:canal-server的实现逻辑,一个canal-server一般是一个jvm进程。重点关注两种canal-server的实现方式,内嵌型的canalServerEmbed和独立使用的canalServerWithNetty。新版本中新增了直接对接mq的canal-server实现。
instance模块:具体实时订阅任务是由一个个instance组成的,每个canal-server中可以同时运行多个instance。instance由parser、sink、store三个重点模块组成。
parser模块:数据源接入,模拟slave协议和master进行交互,协议解析。parser模块依赖于dbsync、driver模块。
sink模块:将parser抓取到的数据,进行过滤,加工,然后发送到store模块进行存储。核心接口为CanalEventSink。
store模块:数据存储模块,类似内存模式到消息队列,本质上是一个RingBuffer。核心接口为CanalEventStore。
meta模块:增量订阅&消费信息管理器,核心接口为CanalMetaManager,主要用于记录canal消费到的mysql binlog的位置
client模块:项目最早的消费客户端,通过将client模块引入自己的项目中,然后直接消费canal-server获取的数据。
client-adapter模块:1.1.x后新出的模块,可以独立部署为canal-server的消费服务端,是一个springboot项目。通过SPI机制,能够加载不同plugins,将消费信息投递到ES\hbase\rdb等下游。
admin模块:1.1.x新出的模块,可以独立部署为canal-server的控制台,配置canal-server、instance相关配置,非常好用。

关联模块

我们从整体到局部来看一下。
整体架构关联,包括admin模块、server模块、client-adapter模块
在这里插入图片描述
1)server模块是服务端核心模块,用来拉取binlog的实时变更,然后投递到客户端。
2)server可以通过配置,选择投递到MQ,或者是启动一个netty,让客户端来拉取。
3)client-adapter就是一个独立部署到服务,可以直接拉取canal-server的消息(或者拉取mq的消息),转发到对应RDS/Redis/HBase,当然,你也可以自己实现一个转发到redis的adapter
4)admin模块是管理控制台,可以调度canal-server组成一个个集群实现instance的高可用、可以更改server、instance的配置信息。
Canal-server模块局部关系,包括deployer模块、server模块、instance模块、parser模块、sink模块、store模块、meta模块、client模块。

在这里插入图片描述
1)deployer模块是一个启动模块,可以启动canal-server。
2)一个server是一个独立应用,是一个jvm进程,里面可以有多个instance对象。
3)instance内包括了parser、sink、store、meta
4)parser负责获取binlog变更,然后sink将parser获取的binlog变更转换为event,存入store。
5)meta是元信息管理器
6)client模块可以内嵌入你的应用,用来消费canal-server的消息事件。

与Maxwell对比

Maxwell是一个能实时读取MySQL二进制日志binlog,并生成JSON格式的消息,作为生产者发送给Kafka、RabbitMQ等中间件的应用程序。它的常见应用场景有ETL、缓存构建、收集表级别的dml指标、增量到搜索引擎、数据分区迁移、切库binlog回滚方案等。
官网:http://maxwells-daemon.io
Canal由Java开发,分为服务端和客户端,拥有众多的衍生应用,性能稳定,功能强大;Canal需要自己编写客户端来消费Canal解析到的数据。
Maxwell相对于Canal的优势是部署使用简单,基本不需要复杂的配置。它直接将数据变更输出为json字符串,不需要再编写客户端。对于缺乏基础建设,短时间内需要快速迭代的项目和公司比较合适。
在这里插入图片描述

canal的使用场景

数据库实时备份
业务cache刷新
数据增量处理
跨数据库的备份,例如mysql=》es,mysql=》redis,mysql=》kafka…

参考资料

https://www.jianshu.com/p/95fc321c20b2
https://cloud.tencent.com/developer/article/1728945

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值