一、MySql的Binlog
1、什么是Binlog
1)binlog是二进制日志,并且是事务安全性
2)binlog记录了所有的DDL和DML(除了数据查询语句)语句,并以事件的形式记录,还包含语句所执行的消耗的时间
3)一般来说开启二进制日志大概会有1%的性能损耗。
2、Binlog使用场景
1)使用binlog恢复数据
2)在项目中动态监听mysql中变化的数据
3、Binlog开启
1)在MySQL的配置文件(Linux: /etc/my.cnf , Windows:\my.ini)下,修改配置在[mysqld] 区块设置/添加server-id=1
log-bin=mysql-bin
binlog_format=row
binlog-do-db=gmall2019
binlog-do-db=gmall2020
binlog-do-db=gmall2021
2)重启mysqlsudo systemctl restart mysqld
4、配置文件参数解析
配置机器id
多台机器不能重复server-id=1
开启binloglog-bin=mysql-bin
Binlog分类设置
MySQL Binlog的格式,那就是有三种,分别是STATEMENT,MIXED,ROW。
在配置文件中选择配置,一般会配置为rowbinlog_format=row
三种分类的区别:
1)statement
语句级,binlog会记录每次一执行写操作的语句。
相对row模式节省空间,但是可能产生不一致性,比如
update tt set create_date=now()
如果用binlog日志进行恢复,由于执行时间不同可能产生的数据就不同。
优点:节省空间
缺点:有可能造成数据不一致。
2)row(常用)
行级,binlog会记录每次操作后每行记录的变化。
优点:保持数据的绝对一致性。因为不管sql是什么,引用了什么函数,他只记录执行后的效果。
缺点:占用较大空间。
3)mixed
statement的升级版,一定程度上解决了,因为一些情况而造成的statement模式不一致问题在某些情况下譬如:
当函数中包含 UUID() 时;包含 AUTO_INCREMENT 字段的表被更新时;
执行 INSERT DELAYED 语句时;
用 UDF 时;
会按照 ROW的方式进行处理
优点:节省空间,同时兼顾了一定的一致性。
缺点:还有些极个别情况依旧会造成不一致,
另外statement和mixed对于需要对binlog的监控的情况都不方便。
设置数据库
设置要监听的数据库,可以同时写入多个库binlog-do-db=gmall2021
binlog-do-db=gmall2022
binlog-do-db=gmall2023
二、FlinkCDC
1、什么是CDC
CDC是Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。
2、CDC的种类
CDC主要分为基于查询和基于Binlog两种方式,我们主要了解一下这两种之间的区别:基于查询的CDC基于Binlog的CDC开源产品Sqoop、Kafka JDBC SourceCanal、Maxwell、Debezium
执行模式BatchStreaming
是否可以捕获所有数据变化否是
延迟性高延迟低延迟
是否增加数据库压力是否
3、FlinkCDC
Flink内置了Debezium
FlinkCDC1.11版本正式发布
Canal不支持读取全量binlog数据,而FlinkCDC完美避开了这个问