Canal Admin 搭建 Canal 1.1.4版本集群(mysql+canal+kafka)

最新推荐文章于 2023-04-04 17:58:58 发布

独在黑夜看湖面

最新推荐文章于 2023-04-04 17:58:58 发布

阅读量2.2k

点赞数 2

分类专栏：大数据文章标签： kafka 大数据 java mysql

本文链接：https://blog.csdn.net/qq_32532321/article/details/111145614

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Canal Admin 搭建 Canal 1.1.4版本集群

Canal Admin 搭建 Canal 1.1.4版本集群(mysql+canal+kafka)
- 下面开始canal集群的搭建

Canal Admin 搭建 Canal 1.1.4版本集群(mysql+canal+kafka)

由于公司有场景为mysql->kafka进行流式计算，所以下面主要为Canal 1.1.4版本集群搭建以及连接kafka。

在选型中由于本地搭建的是CDH大数据平台，在Flume和Canal以及MaxWell中选择了Canal。简单来讲Flume开发较少但是对源数据库入侵较大，比如

1.通过轮询的方式实现增量，只能做到准实时，而且轮询间隔越短，对源库的影响越大。
2.只能识别新增数据，检测不到删除与更新。

Maxwell也是简单易用，但是没有实现HA，但是提供了断点续传类似的功能。
所以再三考虑选择了canal 1.1.4版本也能直接连接kafka进行消息发送

Canal是由alibaba开源的组件，github地址为https://github.com/alibaba/canal

下面开始canal集群的搭建

前置条件安装zookeeper、kafka两台以上的机器以及mysql5.6

首先要给数据库做下预配置(我这里数据库版本为5.6)

修改数据库配置，因为canal的原理是伪装成从库来获取binlog。那就把数据库设置为主库

找到数据库的配置信息

vim /etc/my.cnf 最后面加入这三行，注意server_id不要和其他机器以及canal重复

log-bin=mysql-bin # 开启 binlog

binlog-format=ROW # 选择 ROW 模式

server_id=1

然后重启mysql： service mysqld restart

在mysql查询show VARIABLES like ‘%log%’; 如果log_bin为开启就是正常的

canal admin安装

在官网下载canal.admin-1.1.4 canal.deployer-1.1.4这两个文件的压缩包上传到服务器解压

进入admin文件夹，log文件是我先启动了，初次解压没有，那么bin文件夹就是启动脚本，conf为配置文件，现在先进入conf中

create by xcp

canal_manager.sql文件需要在mysql中执行下，这个是canal admin服务需要用到的数据库，记住执行了这个文件的数据库的ip，后面需要进行配置。

canal-template.properties instance-template.properties可以先不用理会，这个是默认的模板文件。
主要是配置application.yml,里面带中文的部分都是需要你配置的

server:
  port: 8189(自定义端口)
spring:
  jackson:
    date-format: yyyy-MM-dd HH:mm:ss
    time-zone: GMT+8

spring.datasource:
  address: 你的ip:你的端口
  database: canal_manager
  username: 你的用户
  password: 你的密码
  driver-class-name: com.mysql.jdbc.Driver
  url: jdbc:mysql://${spring.datasource.address}/${spring.datasource.database}?useUnicode=true&characterEncoding=UTF-8&useSSL=false
  hikari:
    maximum-pool-size: 30
    minimum-idle: 1

canal:
  adminUser: admin
  adminPasswd: admin

然后返回到bin文件夹中,执行 sh startup.sh启动

然后返回到log文件夹中,如果显示如下打印就是启动成功了

2020-12-12 14:24:45.609 [main] INFO  o.s.boot.web.embedded.tomcat.TomcatWebServer - Tomcat initialized with port(s): 8189 (http)
2020-12-12 14:24:45.637 [main] INFO  org.apache.coyote.http11.Http11NioProtocol - Initializing ProtocolHandler ["http-nio-8189"]
2020-12-12 14:24:45.651 [main] INFO  org.apache.catalina.core.StandardService - Starting service [Tomcat]
2020-12-12 14:24:45.651 [main] INFO  org.apache.catalina.core.StandardEngine - Starting Servlet Engine: Apache Tomcat/8.5.29
2020-12-12 14:24:45.663 [localhost-startStop-1] INFO  org.apache.catalina.core.AprLifecycleListener - The APR based Apache Tomcat Native library which allows optimal performance in production environments was not found on the java.library.path: [/usr/java/packages/lib/amd64:/usr/lib64:/lib64:/lib:/usr/lib]
2020-12-12 14:24:45.759 [localhost-startStop-1] INFO  o.a.catalina.core.ContainerBase.[Tomcat].[localhost].[/] - Initializing Spring embedded WebApplicationContext
2020-12-12 14:24:45.759 [localhost-startStop-1] INFO  org.springframework.web.context.ContextLoader - Root WebApplicationContext: initialization completed in 3211 ms

canal集群安装

首先在启动了canal admin的前提下，在浏览器下面输入http://你的ip:你在application.yml配置的端口会进入下面页面，注意账号密码都是yml里面配置的默认值账号admin 密码admin

进入后点击新建集群，再输入集群名称，请记住集群名称，后面配置需要。再输入zookeeper的地址，因为集群模式需要zooleeper来管理配置文件等信息。
在这里插入图片描述

这个时候就有你新建的集群信息了

然后需要准备集群的配置信息，按照如图点击进入配置页面。然后点击载入模板。
在这里插入图片描述
我复制我这边的整体配置信息，在需要自己填入的地方我用中文代替

#################################################
######### 		common argument		#############
#################################################
# tcp bind ip
canal.ip =
# register ip to zookeeper
canal.register.ip =
canal.port = 11111
canal.metrics.pull.port = 11112
# canal instance user/passwd
canal.user = canal
canal.passwd = E3619321C1A937C46A0D8BD1DAC39F93B27D4458

# canal admin config
canal.admin.manager = 已经安装好的canal admin的ip:canal admin的port
canal.admin.port = 11110
canal.admin.user = admin(canal admin的账户,如果没有admin没有修改就不用管)
canal.admin.passwd = 4ACFE3202A5FF5CF467898FC58AAB1D615029441(canal admin的账户密码,如果没有修改就不用管,如果有修改就在mysql的canal_manager.canal_user表中找)

canal.zkServers =zookeeper的ip地址
# flush data to zk
canal.zookeeper.flush.period = 1000
canal.withoutNetty = false
# tcp, kafka, RocketMQ
canal.serverMode = kafka(需要选择kafka tcp RocketMQ模式 我这里选择的是kafka)
# flush meta cursor/parse position to file
canal.file.data.dir = ${canal.conf.dir}
canal.file.flush.period = 1000
## memory store RingBuffer size, should be Math.pow(2,n)
canal.instance.memory.buffer.size = 16384
## memory store RingBuffer used memory unit size , default 1kb
canal.instance.memory.buffer.memunit = 1024 
## meory store gets mode used MEMSIZE or ITEMSIZE
canal.instance.memory.batch.mode = MEMSIZE
canal.instance.memory.rawEntry = true

## detecing config
canal.instance.detecting.enable = false
#canal.instance.detecting.sql = insert into retl.xdual values(1,now()) on duplicate key update x=now()
canal.instance.detecting.sql = select 1
canal.instance.detecting.interval.time = 3
canal.instance.detecting.retry.threshold = 3
canal.instance.detecting.heartbeatHaEnable = false

# support maximum transaction size, more than the size of the transaction will be cut into multiple transactions delivery
canal.instance.transaction.size =  1024
# mysql fallback connected to new master should fallback times
canal.instance.fallbackIntervalInSeconds = 60

# network config
canal.instance.network.receiveBufferSize = 16384
canal.instance.network.sendBufferSize = 16384
canal.instance.network.soTimeout = 30

# binlog filter config
canal.instance.filter.druid.ddl = true
canal.instance.filter.query.dcl = false
canal.instance.filter.query.dml = false
canal.instance.filter.query.ddl = false
canal.instance.filter.table.error = false
canal.instance.filter.rows = false
canal.instance.filter.transaction.entry = false

# binlog format/image check
canal.instance.binlog.format = ROW,STATEMENT,MIXED 
canal.instance.binlog.image = FULL,MINIMAL,NOBLOB

# binlog ddl isolation
canal.instance.get.ddl.isolation = false

# parallel parser config
canal.instance.parser.parallel = true
## concurrent thread number, default 60% available processors, suggest not to exceed Runtime.getRuntime().availableProcessors()
#canal.instance.parser.parallelThreadSize = 16
## disruptor ringbuffer size, must be power of 2
canal.instance.parser.parallelBufferSize = 256

# table meta tsdb info
canal.instance.tsdb.enable = true
canal.instance.tsdb.dir = ${canal.file.data.dir:../conf}/${canal.instance.destination:}
canal.instance.tsdb.url = jdbc:h2:${canal.instance.tsdb.dir}/h2;CACHE_SIZE=1000;MODE=MYSQL;
canal.instance.tsdb.dbUsername = canal
canal.instance.tsdb.dbPassword = canal
# dump snapshot interval, default 24 hour
canal.instance.tsdb.snapshot.interval = 24
# purge snapshot expire , default 360 hour(15 days)
canal.instance.tsdb.snapshot.expire = 360

# aliyun ak/sk , support rds/mq
canal.aliyun.accessKey =
canal.aliyun.secretKey =

#################################################
######### 		destinations		#############
#################################################
canal.destinations =
# conf root dir
canal.conf.dir = ../conf
# auto scan instance dir add/remove and start/stop instance
canal.auto.scan = true
canal.auto.scan.interval = 5

canal.instance.tsdb.spring.xml = classpath:spring/tsdb/h2-tsdb.xml
#canal.instance.tsdb.spring.xml = classpath:spring/tsdb/mysql-tsdb.xml

canal.instance.global.mode = manager
canal.instance.global.lazy = false
canal.instance.global.manager.address = ${canal.admin.manager}
#canal.instance.global.spring.xml = classpath:spring/memory-instance.xml
#canal.instance.global.spring.xml = classpath:spring/file-instance.xml
canal.instance.global.spring.xml = classpath:spring/default-instance.xml

##################################################
######### 		     MQ 		     #############
##################################################
canal.mq.servers = kafka1的ip:9092,kafka2的ip:9092
canal.mq.retries = 3
canal.mq.batchSize = 16384
canal.mq.maxRequestSize = 1048576
canal.mq.lingerMs = 100
canal.mq.bufferMemory = 33554432
canal.mq.canalBatchSize = 50
canal.mq.canalGetTimeout = 100
canal.mq.flatMessage = true
canal.mq.compressionType = none
canal.mq.acks = all
#canal.mq.properties. =
canal.mq.producerGroup = test
# Set this value to "cloud", if you want open message trace feature in aliyun.
canal.mq.accessChannel = local
# aliyun mq namespace
#canal.mq.namespace =

##################################################
#########     Kafka Kerberos Info    #############
##################################################
canal.mq.kafka.kerberos.enable = false
canal.mq.kafka.kerberos.krb5FilePath = "../conf/kerberos/krb5.conf"
canal.mq.kafka.kerberos.jaasFilePath = "../conf/kerberos/jaas.conf"

注意canal.instance.global.spring.xml配置我选择的是default-instance.xml，还有其他的几种配置在canal.deployer的conf目录下的spring目录可以找到。他们有几种区别，简单介绍下：
memory-instance.xml介绍：

所有的组件(parser , sink , store)都选择了内存版模式，记录位点的都选择了memory模式，重启后又会回到初始位点进行解析

特点：速度最快，依赖最少(不需要zookeeper)

场景：一般应用在quickstart，或者是出现问题后，进行数据分析的场景，不应该将其应用于生产环境

default-instance.xml介绍：

store选择了内存模式，其余的parser/sink依赖的位点管理选择了持久化模式，目前持久化的方式主要是写入zookeeper，保证数据集群共享.

特点：支持HA

场景：生产环境，集群化部署.

group-instance.xml介绍：

主要针对需要进行多库合并时，可以将多个物理instance合并为一个逻辑instance，提供客户端访问。

场景：分库业务。 比如产品数据拆分了4个库，每个库会有一个instance，如果不用group，业务上要消费数据时，需要启动4个客户端，分别链接4个instance实例。使用group后，可以在canal server上合并为一个逻辑instance，只需要启动1个客户端，链接这个逻辑instance即可.

file-instance.xml介绍：
所有的组件(parser , sink , store)都选择了基于file持久化模式，注意，不支持HA机制.

特点：支持单机持久化

场景：生产环境，无HA需求，简单可用.

所以我这在里选了default-instance.xml来使用,如果需要自定义也是可以自己实现的。

最后完成配置后点击保存配置即可。
2. 我这边准备了两台机器作为canal集群的机器,将canal.deployer-1.1.4解压到服务器上，同样bin目录为启动脚本目录，我们主要关注的是conf目录，进入conf中。
3. 我们安装集群模式主要是关注canal_local.properties即可

# register ip
canal.register.ip = 你主机的ip,避免多网卡带来的问题

# canal admin config
canal.admin.manager = canal admin的ip:canal admin的port
canal.admin.port = 11110
canal.admin.user = admin
canal.admin.passwd = 4ACFE3202A5FF5CF467898FC58AAB1D615029441
# admin auto register
canal.admin.register.auto = true
canal.admin.register.cluster =填入之前在admin中创建集群的集群名

完成上述的配置后,进入canal.deployer的bin目录,执行sh startup.sh local,然后canal.deployer的log/canal/目录里面的日志,看到如下日志就代表成功。
在这里插入图片描述

另外一台机器直接将整个目录拷贝,修改配置文件中的ip即可启动。
4. 启动两台机器上的canal服务后我们再去admin界面查看会发现多了两个服务。如下图

5. 这个时候服务启动成功了.在此说明canal组件的关系

说明：

server代表一个canal运行实例，对应于一个jvm
instance对应于一个数据队列 （1个server对应1..n个instance)
instance模块：

eventParser (数据源接入，模拟slave协议和master进行交互，协议解析)
eventSink (Parser和Store链接器，进行数据过滤，加工，分发的工作)
eventStore (数据存储)
metaManager (增量订阅&消费信息管理器)

所以我们要启动一个instance模块来实现数据源的接入和kafka的发送,因为1.4.1版本已经将kafka的发送集成进来了。
6. 新建instance

点击新建
在这里插入图片描述

填入名称,选择主机然后点击载入模板
在这里插入图片描述

这里我把我的测试配置展示出来，中文地方表示需要自行修改

#################################################
## mysql serverId , v1.0.26+ will autoGen
# canal.instance.mysql.slaveId=0

# enable gtid use true/false
canal.instance.gtidon=false

# position info
canal.instance.master.address=(ip:3306)这里填写提供bin_log的mysql
canal.instance.master.journal.name=
canal.instance.master.position=
canal.instance.master.timestamp=
canal.instance.master.gtid=

# rds oss binlog
canal.instance.rds.accesskey=
canal.instance.rds.secretkey=
canal.instance.rds.instanceId=

# table meta tsdb info
canal.instance.tsdb.enable=true
#canal.instance.tsdb.url=jdbc:mysql://127.0.0.1:3306/canal_tsdb
#canal.instance.tsdb.dbUsername=canal
#canal.instance.tsdb.dbPassword=canal

#canal.instance.standby.address =
#canal.instance.standby.journal.name =
#canal.instance.standby.position =
#canal.instance.standby.timestamp =
#canal.instance.standby.gtid=

# username/password
canal.instance.dbUsername=这里填写提供bin_log的mysql账号
canal.instance.dbPassword=这里填写提供bin_log的mysql密码
canal.instance.connectionCharset = UTF-8
# enable druid Decrypt database password
canal.instance.enableDruid=false
#canal.instance.pwdPublicKey=MFwwDQYJKoZIhvcNAQEBBQADSwAwSAJBALK4BUxdDltRRE5/zXpVEVPUgunvscYFtEip3pmLlhrWpacX7y7GCMo2/JM6LeHmiiNdH1FWgGCpUfircSwlWKUCAwEAAQ==

# table regex
canal.instance.filter.regex=.*\\..*(需要自行修改,我这里是所有的表)
# table black regex
canal.instance.filter.black.regex=
# table field filter(format: schema1.tableName1:field1/field2,schema2.tableName2:field1/field2)
#canal.instance.filter.field=test1.t_product:id/subject/keywords,test2.t_company:id/name/contact/ch
# table field black filter(format: schema1.tableName1:field1/field2,schema2.tableName2:field1/field2)
#canal.instance.filter.black.field=test1.t_product:subject/product_image,test2.t_company:id/name/contact/ch

# mq config
# canal.mq.topic=topic_test(需要自行修改,我这里注释了)
# dynamic topic route by schema or table regex
canal.mq.dynamicTopic=topic_test(需要自行修改，我的数据库名称就叫topic_test，我这里是指定匹配对应的库，一个库的所有表都会发送到库名的topic上)
canal.mq.partition=3(需要自行修改)
# hash partition config
canal.mq.partitionsNum=3(需要自行修改)
canal.mq.partitionHash=.*\\..*:$pk$(需要自行修改,我这里是表的主键为分区hash规则)
#################################################

有几个配置信息需要注意

按需修改成自己的数据库信息

#################################################
…
canal.instance.master.address=192.168.1.20:3306

username/password,数据库的用户名和密码

…
canal.instance.dbUsername = canal
canal.instance.dbPassword = canal
…

mq config

canal.mq.topic=example

针对库名或者表名发送动态topic

#canal.mq.dynamicTopic=mytest,.,mytest.user,mytest\…,.\…
canal.mq.partition=0

hash partition config

#canal.mq.partitionsNum=3
#库名.表名: 唯一主键，多个表之间用逗号分隔
#canal.mq.partitionHash=mytest.person:id,mytest.role:id
#################################################

canal.mq.dynamicTopic 表达式说明
canal 1.1.3版本之后, 支持配置格式：schema 或 schema.table，多个配置之间使用逗号或分号分隔

例子1：test\\.test 指定匹配的单表，发送到以test_test为名字的topic上
例子2：.*\\..* 匹配所有表，则每个表都会发送到各自表名的topic上
例子3：test 指定匹配对应的库，一个库的所有表都会发送到库名的topic上
例子4：test\\..* 指定匹配的表达式，针对匹配的表会发送到各自表名的topic上
例子5：test,test1\\.test1，指定多个表达式，会将test库的表都发送到test的topic上，test1\\.test1的表发送到对应的test1_test1 topic上，其余的表发送到默认的canal.mq.topic值
为满足更大的灵活性，允许对匹配条件的规则指定发送的topic名字，配置格式：topicName:schema 或 topicName:schema.table

例子1: test:test\\.test 指定匹配的单表，发送到以test为名字的topic上
例子2: test:.*\\..* 匹配所有表，因为有指定topic，则每个表都会发送到test的topic下
例子3: test:test 指定匹配对应的库，一个库的所有表都会发送到test的topic下
例子4：testA:test\\..* 指定匹配的表达式，针对匹配的表会发送到testA的topic下
例子5：test0:test,test1:test1\\.test1，指定多个表达式，会将test库的表都发送到test0的topic下，test1\\.test1的表发送到对应的test1的topic下，其余的表发送到默认的canal.mq.topic值
大家可以结合自己的业务需求，设置匹配规则，建议MQ开启自动创建topic的能力

canal.mq.partitionHash 表达式说明
canal 1.1.3版本之后, 支持配置格式：schema.table:pk1^pk2，多个配置之间使用逗号分隔

例子1：test\\.test:pk1^pk2 指定匹配的单表，对应的hash字段为pk1 + pk2
例子2：.*\\..*:id 正则匹配，指定所有正则匹配的表对应的hash字段为id
例子3：.*\\..*:$pk$ 正则匹配，指定所有正则匹配的表对应的hash字段为表主键(自动查找)
例子4: 匹配规则啥都不写，则默认发到0这个partition上
例子5：.*\\..* ，不指定pk信息的正则匹配，将所有正则匹配的表,对应的hash字段为表名
按表hash: 一张表的所有数据可以发到同一个分区，不同表之间会做散列 (会有热点表分区过大问题)
例子6: test\\.test:id,.\\..* , 针对test的表按照id散列,其余的表按照table散列
上面的规则就是正则表达式 但是要注意\\双反斜杠转义

mq顺序性问题很重要

binlog本身是有序的，写入到mq之后如何保障顺序是很多人会比较关注，在issue里也有非常多人咨询了类似的问题，这里做一个统一的解答

canal目前选择支持的kafka/rocketmq，本质上都是基于本地文件的方式来支持了分区级的顺序消息的能力，也就是binlog写入mq是可以有一些顺序性保障，这个取决于用户的一些参数选择
canal支持MQ数据的几种路由方式：单topic单分区，单topic多分区、多topic单分区、多topic多分区
canal.mq.dynamicTopic，主要控制是否是单topic还是多topic，针对命中条件的表可以发到表名对应的topic、库名对应的topic、默认topic name
canal.mq.partitionsNum、canal.mq.partitionHash，主要控制是否多分区以及分区的partition的路由计算，针对命中条件的可以做到按表级做分区、pk级做分区等
canal的消费顺序性，主要取决于描述2中的路由选择，举例说明：
单topic单分区，可以严格保证和binlog一样的顺序性，缺点就是性能比较慢，单分区的性能写入大概在2~3k的TPS
多topic单分区，可以保证表级别的顺序性，一张表或者一个库的所有数据都写入到一个topic的单分区中，可以保证有序性，针对热点表也存在写入分区的性能问题
单topic、多topic的多分区，如果用户选择的是指定table的方式，那和第二部分一样，保障的是表级别的顺序性(存在热点表写入分区的性能问题)，如果用户选择的是指定pk hash的方式，那只能保障的是一个pk的多次binlog顺序性 ** pk hash的方式需要业务权衡，这里性能会最好，但如果业务上有pk变更或者对多pk数据有顺序性依赖，就会产生业务处理错乱的情况. 如果有pk变更，pk变更前和变更后的值会落在不同的分区里，业务消费就会有先后顺序的问题，需要注意

7.创建完成后直接保存

然后点击查看日志
在这里插入图片描述

2020-12-12 17:48:07.054 [destination = 37_mysql , address = /10.10.205.37:3306 , EventParser] WARN  c.a.o.c.p.inbound.mysql.rds.RdsBinlogEventParserProxy - ---> find start position successfully, EntryPosition[included=false,journalName=mysql-bin.000002,position=2918445,serverId=1,gtid=,timestamp=1607766486000] cost : 20ms , the next step is binlog dump

如果发现日志处于这样的状态，表示成功启动。
在mysql中插入删除信息，再查看kafka的信息
在安装好的kafka的bin目录中，如果是CDH版本的kafka操作更加简单。
下面是普通安装版本命令为(需要先进入kafka安装目录的bin目录中)

sh kafka-console-consumer.sh --bootstrap-server ip:9092,ip2:9092 --topic topic_text
在这里插入图片描述

我们可以看到一些关键的信息，其他是一些表的信息我给抹去了。
这样就成功接入了kakfa。后续可以进行用sparkStreaming进行流式处理了。
如果kafka没信息，在查看instance日志发现kafka发送失败，请检查kafka的配置以及kafka的版本，需要大于1.0.0才行。之前0.9.0的低版本是不行的。
转载请带上原链接和作者。