Canal高可用架构部署

一、前言
canal 是阿里的一款开源项目,纯 Java 开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了 MySQL(也支持 mariaDB)。 file

canal 模拟 mysql slave 的交互协议,伪装自己为 mysql slave,向 mysql master发送 dump 协议;
mysql master 收到 dump 请求,开始推送binary log给 slave(也就是canal)
canal 解析 binary log对象(原始为byte流)。

总体架构:

在这里插入图片描述

二、部署准备
下载地址: https://github.com/alibaba/canal/releases

分别下载:canal.admin、canal.deployer、canal.adapter

PS:只有1.1.5以上版本才支持es7.x

其他依赖:

JDK1.8
MySQL:用于canal-admin存储配置和节点等相关数据
Zookeeper

三、HA机制
整个 HA 机制的控制主要是依赖了zookeeper的两个特性:watcher、EPHEMERAL节点。canal的 HA 机制实现分为两部分,canal server 和 canal client分别有对应的实现。 file

canal server实现流程如下:

canal server 要启动某个 canal instance 时都先向 zookeeper 进行一次尝试启动判断 (实现:www.sngykjj.com创建 EPHEMERAL 节点,谁创建成功就允许谁启动);
创建 zookeeper 节点成功后,对应的 canal server 就启动对应的 canal instance,没有创建成功的 canal instance 就会处于 standby 状态;
一旦 zookeeper 发现 canal server A 创建的节点消失后,立即通知其他的 canal server 再次进行步骤1的操作,重新选出一个 canal server 启动instance;
canal client 每次进行connect时,会首先向 zookeeper 询问当前是谁启动了canal instance,然后和其建立链接,一旦链接不可用,会重新尝试connect。
PS: 为了减少对mysql dump的请求,不同server上的instance要求同一时间只能有一个处于running,其他的处于standby状态。

canal client实现流程

canal client 的方式和 canal server 方式类似,也是利用 zookeeper 的抢占EPHEMERAL 节点的方式进行控制
为了保证有序性,一份 instance 同一时间只能由一个 canal client 进行get/ack/rollback操作,否则客户端接收无法保证有序。

四、集群部署
4.1. MySQL准备
4.1.1. 开启binlog
MySQL的 my.cnf 中配置如下

[mysqld]log-bin=mysql-bin # 开启 binlogbinlog-format=ROW # 选择 ROW 模式server_id=1 # 配置 MySQL replaction 需要定义,不要和 canal 的 slaveId 重复
注意:如果订阅的是mysql的从库,需求增加配置让从库日志也写到binlog里面

log_slave_updates=1
可以通过在 mysql 终端中执行以下命令判断配置是否生效:

show variables like ‘log_bin’;show variables like ‘binlog_format’;

4.1.2. 授权账号权限
授权 canal 链接 MySQL 账号具有作为 MySQL slave 的权限, 如果已有账户可直接 grant:

CREATE USER canal IDENTIFIED BY ‘canal’;
GRANT SELECT, REPLICATION SLAVE, REPLICATION CLIENT ON . TO ‘canal’@’%’;FLUSH PRIVILEGES;

4.2. 部署canal-admin
4.2.1. 作用
通过图形化界面管理配置参数。
动态启停 Server 和 Instance
查看日志信息

4.2.2. 执行数据库脚本
执行 conf 目录下载的 canal_manager.sql 脚步,初始化所需的库表。

初始化SQL脚本里会默认创建canal_manager的数据库,建议使用root等有超级权限的账号进行初始化

4.2.3. 配置修改
执行 vim conf/application.yml

server:
port: 8089spring:
jackson:
date-format: yyyy-MM-dd HH:mm:ss
time-zone: GMT+8spring.datasource:
address: 127.0.0.1:3306
database: canal_manager
username: canal
password: canal
driver-class-name: com.mysql.jdbc.Driver
url: jdbc:mysql:// s p r i n g . d a t a s o u r c e . a d d r e s s / {spring.datasource.address}/ spring.datasource.address/{spring.datasource.database}?useUnicode=true&characterEncoding=UTF-8&useSSL=false
hikari:
maximum-pool-size: 30
minimum-idle: 1canal:
adminUser: admin
adminPasswd: admin
修改 address、database、username、password 四个参数

4.2.4. 启停命令
启动

sh bin/startup.sh
停止

sh bin/stop.sh

4.2.5. 使用
通过 http://127.0.0.1:8089/ 访问,默认密码:admin/123456

4.2.5.1. 创建集群
配置 集群名称 与 ZK地址 file

配置 主配置,该配置为集群内的所有Server实例共享的 file 主要修改以下配置:

canal.zkServers 配置zookeeper集群地址
canal.instance.global.spring.xml 改为classpath:spring/default-instance.xml

4.2.5.2. 创建Server
file 配置项:

所属集群,可以选择为单机 或者 集群。一般单机Server的模式主要用于一次性的任务或者测试任务
Server名称,唯一即可,方便自己记忆
Server Ip,机器ip
admin端口,canal 1.1.4版本新增的能力,会在canal-server上提供远程管理操作,默认值11110
tcp端口,canal提供netty数据订阅服务的端口
metric端口, promethues的exporter监控数据端口 (未来会对接监控)
多台Server关联同一个集群即可形成主备HA架构

4.2.5.3. 创建Instance
每个 Instance 关联一个同步的数据源,如果有多个数据源需要同步则需要创建多个 实例 file

先填写实例名
选择刚刚创建的集群
载入模板配置

主要修改以下配置:

canal.instance.master.address 配置要同步的数据库地址
canal.instance.dbUsername 数据库用户名(需同步权限)
canal.instance.dbPassword 数据库密码
canal.instance.filter.regex mysql 数据解析关注的表,Perl正则表达式.多个正则之间以逗号(,)分隔,转义符需要双斜杠()
canal.instance.filter.regex常见例子:

所有表:.* or …
canal schema下所有表: canal…*
canal下的以canal打头的表:canal.canal.*
canal schema下的一张表:canal.test1
多个规则组合使用:canal…*,mysql.test1,mysql.test2 (逗号分隔) 注意:此过滤条件只针对row模式的数据有效(ps. mixed/statement因为不解析sql,所以无法准确提取tableName进行过滤)

4.3. 部署canal-deployer
4.3.1. 作用
伪装成 MySQL 的从库,同步主库的binlog日志。
解析并结构化 binary log 对象。

4.3.2. 修改配置
执行 vim conf/canal_local.properties 修改配置项 canal.admin.manager 为canal-admin的地址

4.3.3. 启停命令
使用 local 配置启动

bin/startup.sh local
停止

bin/stop.sh

4.4. 部署canal-adapter
4.4.1. 作用
对接上游消息,包括kafka、rocketmq、canal-server
实现mysql数据的增量同步
实现mysql数据的全量同步
下游写入支持mysql、es、hbase等

4.4.2. 修改配置
注意:目前 adapter 是支持动态配置的,也就是说修改配置文件后无需重启,任务会自动刷新配置!

(1) 修改application.yml

执行 vim conf/application.yml 修改consumerProperties、srcDataSources、canalAdapters的配置

canal.conf:
mode: tcp # kafka rocketMQ # canal client的模式: tcp kafka rocketMQ
flatMessage: true # 扁平message开关, 是否以json字符串形式投递数据, 仅在kafka/rocketMQ模式下有效
syncBatchSize: 1000 # 每次同步的批数量
retries: 0 # 重试次数, -1为无限重试
timeout: # 同步超时时间, 单位毫秒
consumerProperties:
canal.tcp.server.host: # 对应单机模式下的canal
canal.tcp.zookeeper.hosts: 127.0.0.1:2181 # 对应集群模式下的zk地址, 如果配置了canal.tcp.server.host, 则以canal.tcp.server.host为准
canal.tcp.batch.size: 500 # tcp每次拉取消息的数量
srcDataSources: # 源数据库
defaultDS: # 自定义名称
url: jdbc:mysql://127.0.0.1:3306/mytest?useUnicode=true # jdbc url
username: root # jdbc 账号
password: 121212 # jdbc 密码
canalAdapters: # 适配器列表

  • instance: example # canal 实例名或者 MQ topic 名
    groups: # 分组列表
    • groupId: g1 # 分组id, 如果是MQ模式将用到该值
      outerAdapters: # 分组内适配器列表
      • name: es7 # es7适配器
        mode: rest # transport or rest
        hosts: 127.0.0.1:9200 # es地址
        security.auth: test:123456 # 访问es的认证信息,如没有则不需要填
        cluster.name: my-es # 集群名称,transport模式必需配置…
        一份数据可以被多个group同时消费, 多个group之间会是一个并行执行, 一个group内部是一个串行执行多个outerAdapters, 比如例子中logger和hbase
        目前client adapter数据订阅的方式支持两种,直连canal server 或者 订阅kafka/RocketMQ的消息

(2) conf/es7目录下新增映射配置文件

adapter将会自动加载 conf/es7 下的所有 .yml 结尾的配置文件

新增表映射的配置文件,如 sys_user.yml 内容如下:

dataSourceKey: defaultDS
destination: example
groupId: g1
esMapping:
_index: sys_user
_id: id
upsert: true
sql: “select id, username,
, case when sex = 0 then ‘男’ else ‘女’ end sex
, case when is_del = 0 then ‘否’ else ‘是’ end isdel from sys_user”
etlCondition: “where update_time>={}”
commitBatch: 3000
dataSourceKey 配置 application.yml 里 srcDataSources 的值
destination 配置 canal.deployer 的 Instance 名
groupId 配置 application.yml 里 canalAdapters.groups 的值
_index 配置索引名
_id 配置主键对应的字段
upsert 是否更新
sql 映射sql
etlCondition etl 的条件参数,全量同步时可以使用
commitBatch 提交批大小
sql映射支持多表关联自由组合, 但是有一定的限制:

主表不能为子查询语句
只能使用left outer join即最左表一定要是主表
关联从表如果是子查询不能有多张表
主sql中不能有where查询条件(从表子查询中可以有where条件但是不推荐, 可能会造成数据同步的不一致, 比如修改了where条件中的字段内容)
关联条件只允许主外键的’='操作不能出现其他常量判断比如: on a.role_id=b.id and b.statues=1
关联条件必须要有一个字段出现在主查询语句中比如: on a.role_id=b.id 其中的 a.role_id 或者 b.id 必须出现在主select语句中
Elastic Search的mapping 属性与sql的查询值将一一对应(不支持 select *), 比如: select a.id as _id, a.name, a.email as _email from user, 其中name将映射到es mapping的name field, _email将 映射到mapping的_email field, 这里以别名(如果有别名)作为最终的映射字段. 这里的_id可以填写到配置文件的 _id: _id映射

4.4.3. 启停命令
启动

bin/startup.sh
关闭

bin/stop.sh

4.5. 遗留问题
目前使用的 1.1.5-SNAPSHOT 版本由于还不是发布版,发现 canal-adapter 的集群部署有个bug,配置 zookeeper 地址后启动会出现以下异常:

java.lang.LinkageError: loader constraint violation: when resolving method “com.alibaba.otter.canal.common.zookeeper.ZkClientx.create(Ljava/lang/String;Ljava/lang/Object;Lorg/apache/zookeeper/CreateMode;)Ljava/lang/String;” the class loader (instance of com/alibaba/otter/canal/connector/core/spi/URLClassExtensionLoader) of the current class, com/alibaba/otter/canal/client/impl/running/ClientRunningMonitor, and the class loader (instance of sun/misc/Launcher$AppClassLoader) for the method’s defining class, org/I0Itec/zkclient/ZkClient, have different Class objects for the type org/apache/zookeeper/CreateMode used in the signature
at com.alibaba.otter.canal.client.impl.running.ClientRunningMonitor.initRunning(ClientRunningMonitor.java:122) [connector.tcp-1.1.5-SNAPSHOT-jar-with-dependencies.jar:na] at com.alibaba.otter.canal.client.impl.running.ClientRunningMonitor.start(ClientRunningMonitor.java:93) [connector.tcp-1.1.5-SNAPSHOT-jar-with-dependencies.jar:na] at com.alibaba.otter.canal.client.impl.SimpleCanalConnector.connect(SimpleCanalConnector.java:108) [connector.tcp-1.1.5-SNAPSHOT-jar-with-dependencies.jar:na] at com.alibaba.otter.canal.client.impl.ClusterCanalConnector.connect(ClusterCanalConnector.java:64) [connector.tcp-1.1.5-SNAPSHOT-jar-with-dependencies.jar:na] at com.alibaba.otter.canal.connector.tcp.consumer.CanalTCPConsumer.connect(CanalTCPConsumer.java:59) [connector.tcp-1.1.5-SNAPSHOT-jar-with-dependencies.jar:na]

有以下3个解决思路:

adapter暂时使用单实例模式,等待官方解决问题。
自行修复bug
使用 MQ 模式(adapter则无需注册到zookeeper了)
该 BUG 已修复:https://github.com/zlt2000/canal

五、监控
canal 默认已通过 11112 端口暴露同步相关的 metrics 信息,只需通过集成 prometheus 与 grafana 即可实现实时监控同步情况,效果图如下:

file

指标 简述
Basic Canal instance 基本信息。
Network bandwith 网络带宽。包含inbound(canal server读取binlog的网络带宽)和outbound(canal server返回给canal client的网络带宽)。
Delay Canal server与master延时;store 的put, get, ack操作对应的延时。
Blocking sink线程blocking占比;dump线程blocking占比(仅parallel mode)。
TPS(events) Canal instance消费所有binlog事件的TPS, 以MySQL binlog events为单位计算。
TPS(transaction) Canal instance 处理binlog的TPS,以MySQL transaction为单位计算。
TPS(tableRows) 分别对应store的put, get, ack操作针对数据表变更行的TPS。
Client requests Canal client请求server的请求数统计,结果按请求类型分类(比如get/ack/sub/rollback等)。
Client QPS client发送请求的QPS,按GET与CLIENTACK分类统计。
Empty packets Canal client请求server返回空结果的统计。
Response time Canal client请求server的响应时间统计。
Store remain events Canal instance ringbuffer中堆积的events数量。
Store remain mem Canal instance ringbuffer中堆积的events内存使用量。

六、总结
准备MySQL
开启binlog(row模式)
准备同步权限的用户
创建canal-admin的库表
准备zookeeper部署canal-admin
创建集群
创建server:关联集群
创建Instance:关联集群,并配置源库信息
启动canal-deployer
关联canal-admin
启动canal-adapter
关联zookeeper
配置源库信息
关联Instance
配置目标库信息(es)
新增映射配置文件

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Canal 是阿里巴巴开源的一款用于 MySQL 和 PostgreSQL 数据库的增量数据订阅和消费的工具。以下是 Canal 在实际使用中的部署步骤: 1. 安装和配置 Canal Server:首先,需要在服务器上安装和配置 Canal Server。可以从 Canal 的官方 GitHub 仓库下载最新版本的 Canal Server,并根据文档进行安装和配置。配置文件中需要指定数据库的连接信息、监听的 binlog 文件以及订阅的数据库和表信息。 2. 启动 Canal Server:启动 Canal Server,让其开始监听数据库的 binlog 变动。 3. 创建 Canal 客户端:在需要消费数据库变更的应用程序中,创建 Canal 客户端。Canal 客户端会连接到 Canal Server,订阅指定的数据库和表。 4. 解析和处理数据变更:Canal 会将数据库的增量变更以 JSON 格式发送给客户端。在客户端中,需要解析这些 JSON 数据,并根据业务需求进行相应的处理,如更新缓存、发送消息等。 5. 监控和管理:部署后,需要对 Canal 进行监控和管理,确保其正常运行。可以使用监控工具或自定义脚本来监控 Canal Server 的状态和性能指标,并及时处理错误和异常情况。 需要注意的是,Canal 部署过程中还涉及到数据库的配置和权限设置,确保 Canal Server 能够正常连接到数据库并订阅相应的 binlog。此外,Canal 还支持高可用部署,可以配置多个 Canal Server 实例以增加可靠性和容错性。具体的部署方式可以根据实际需求和架构进行调整。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值