Canal应用
文档总体上分5部分
1. 应用场景;
2. 如何部署环境;
3. 应用端如何使用;
4. 踩坑;
5. 稳定性和实时性;
应用场景:canal的原理是伪装为rds的一个slave来监听binlog;所以canal可以用在:
1. 数据同步,比如:做在/离线数据库之间的数据同步操作;
2. 数据消费,比如:需要根据关注的数据库表的变化,做搜索增量;
3. 数据脱敏,比如:需要将线上动态数据导入到其它地方,做数据脱敏;
如何部署:
配置:
集群最低配置zookeeper X3 + canal X2,
单台机器:4C8G
增加机器数量可以提高稳定性,但是对消费速度不影响;
步骤:
1. 先搭个zk环境;zookeeper\zookeeper-3.4.6.tar.gz
2. 在三台机器上下载zookeeper安装包,3.4.6或3.4.9是稳定版本;
3. 三台机器解压安装包
4. 进入conf中复制zoo_sample.cfg 到 zoo.cfg
5. 配置zoo.cfg,
tickTime:leader-follower通信心跳时间,也就是每个 tickTime 时间就会发送一个心跳,单位ms;
initLimit:Leader-Follower初始通信时限,初始连接时能容忍的最多心跳数(tickTime的数量),比如这里 initLimit=10就是10次心跳(2000ms X 10)无应答,则认为连接失败;
syncLimit:Leader-Follower同步通信时限,请求和应答之间能容忍的最多心跳数,比如这里syncLimit=5 就是5次心跳(2000ms X 10)无应答,则认为同步失败;
dataDir:数据文件目录,默认情况下保存数据和日志;可以把myid也放这个目录下;
clientPort:zookeeper客户端的连接端口;
server.1,server.2,server.3:这里的编号1,2,3对应集群中机器的myid