通过kafka,canal进行数据异构同步的一套技术方案

2 篇文章 0 订阅

业务背景说明:

本公司有一个业务场景是需要从A数据库异构同步至B数据库,在B数据库进行一些逻辑统计查询操作,大致如下图:

当时设计的技术架构如下:

第一步:通过canal监听A库的binlog日志,将binlog日志信息发送至kafka消息队列

第二步:部署消费者canal-kafka工程(纯java编写),消费kafka消息,异构原始数据,落B库,canal-kafka可以多节点分片部署

该方案咋一看可能存在一些问题,如同步性能如何,sql执行顺序问题如何保证,下面一一解答

biglog本身是有序的,写入kafka时可以保证有序,如果canal-kafka单节点部署,顺序消费那么,异构执行sql必定是有序的,但是这样会遇到性能瓶颈,同步数据量一大,必定造成大量消息阻塞,为了解决这一问题,canal-kafka必须得支持多节点分片部署。而kafka正好支持消息的分区功能,当一个消息投递至kafka时,可以选择这条消息至哪个分区,一个分区对应一个消费者,这样大幅提高了消费能力。消费能力提高了但是引进一个新问题,sql执行顺序问题,假设同一条数据的多个update语句,在不同的消费者执行,那么他们前后执行顺序问题如何保障?于是乎,必须确保同一条数据,从insert以及后面的各条update语句必须得是同一个消费者消费消息,有序执行。而canal拥有这一功能,参考文章链接:Canal Kafka RocketMQ QuickStart · alibaba/canal Wiki · GitHub ,可以查看 “mq顺序性问题” 这一小节。简单来说,每条数据在经过canal投递至kafka时 ,对其主键进行hash,选择其指定的kafka分区,这样之后这条数据修改均会投递至当初insert的的那个分区,这样消费时又是有序消费,从而保证了异构数据的有序性(A库单表数据对应B库单表数据的情况)。如下图:

当然,因为是异构,所以存在以下三种比较麻烦的情况:①A库的多表数据 对应 B库的单表数据,②A库的单表数据对应B的多表数据,③A库多表数据对应B库多表数据;第二种情况,在处理时比较简单,只要新增,修改时改造多条B库执行sql的语句,对于第一种跟第三种情况,就存在多个主键key都能造成某条B库数据的更新,为了保证数据的一致性,就需要通过业务代码来确保。举个例子:A的a1表,a2表,a3表均会更新B库的b1表数据,于是乎,当a1数据到达B时,需要回查a2,a3的数据,确定最后b1的执行sql,这样才确保了最终一致性。第三种情况也类似。如下图:

还有一种解决方案是设计合理的分区key,因为前面是将各张表的主键进行hash操作后分区,可能会导致顺序错乱,如果找到a1,a2,a3表的关联关系,如果他们的关联字段是同一个,进行hash消息分区后能保证有序,可以达到转化为单表对单表同步的效果,这样提高的性能不是一点点,当然在同步策略中需要考虑在a1,a2,a3数据到达时b1表的数据是否已经生成,这些都需要在业务逻辑中保障。当然出现万一a1,a2表的关联字段是 c1;a2,a3表的关联字段是c2,关联字段不是同一个,处理起来就不适用于此方法了,因为无论是对c1 hash分区还是c2 hash分区,都会对B库的b1表更新,又会产生顺序问题。

当然在数据一致性要求较低的情况下,可以在a1,a2,a3三张表中以更新频率最高的的表作为更新标记,在业务中只当某张表(a1,a2,a3中的一张)更新时才更新b1表数据,这样可以提高同步性能。

至此,将技术方案进行了简单说明,若有遗漏未考虑到bug情况望指教。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: 可以使用Canal来实现将MySQL数据同步KafkaCanal是阿里巴巴开源的一款基于MySQL数据库增量日志解析和同步的工具,可以实时捕获MySQL数据库的增量日志,解析日志内容,并将解析后的数据发送到Kafka等消息队列中。 具体实现步骤如下: 1. 安装Canal并配置MySQL数据源信息。 2. 配置CanalKafka输出端,包括Kafka的地址、topic等信息。 3. 启动Canal服务,并开启Kafka输出端。 4. 在MySQL数据库中进行数据操作,Canal会实时捕获增量日志并将解析后的数据发送到Kafka中。 通过以上步骤,就可以实现将MySQL数据同步Kafka中。 ### 回答2: Canal是一个开源的MySQL数据数据同步工具,可用于将MySQL数据库中的数据推送到Kafka等消息队列系统中。Canal具有简单易用和高效稳定等特点,可以实时地将MySQL的操作事件转换为消息发布到Kafka中,从而实现数据的传输和同步Canal数据同步过程主要分为三个步骤:数据的抽取、数据的传输和数据的写入。在数据的抽取阶段,Canal会通过监听MySQL的binlog日志来实时获取数据库的更新操作事件。在数据的传输阶段,Canal会将获取到的数据转化为Kafka数据结构并将数据推送到Kafka中。在数据的写入阶段,Kafka消费者会接收到Canal推送过来的数据并将数据写入到目标数据库中。 Canal同步MySQL数据Kafka具有以下优点: 1. 实时性好:Canal可以实时获取MySQL的binlog日志,因此同步数据的速度较快,数据可以实时同步Kafka中,提高了数据同步的实时性。 2. 高效稳定:Canal具有高效稳定的数据同步能力,可以对MySQL的大量数据进行实时同步,同时Canal对复杂的数据类型和操作也具有很好的兼容性。 3. 低延迟:Canal同步MySQL数据Kafka的过程中,除了Canal本身的处理时间外,数据传输和写入等步骤都可以实现实时同步,因此具有低延迟的特点。 4. 扩展性强:Canal支持插件机制,可以根据需要进行扩展和定制,支持多种不同的数据源和目标,也支持多线程和分布式部署等高级特性。 总之,Canal同步MySQL数据Kafka是一种高效稳定、实时性好、低延迟、扩展性强的数据同步方案。在实际的数据同步应用中,可以根据具体情况选择适合自己的部署方式和应用场景,并结合其他工具和技术进行更加灵活高效的数据同步。 ### 回答3: Canal是阿里巴巴公司开发的一款基于binlog的增量数据同步工具,可以把MySQL数据库的数据变更同步Kafka等消息队列或其他存储介质中。 Canal架构包括三个组件:Canal Server、Canal Client和Canal Adapter。 Canal Server是作为数据源的MySQL数据库的代理工具,负责解析MySQL的binlog日志,并将变更事件以JSON的形式发送给Canal Client。 Canal Client是Canal数据同步的传输逻辑,接受Canal Server解析出来的binlog事件,并将事件转化为适合Kafka等消息队列的消息格式。 Canal Adapter是Canal的一个插件式架构,根据业务需求,可以通过Adapter来将数据发送到Kafka或其他消息队列、ElasticSearch等存储介质中。 在使用Canal同步MySQL数据Kafka时,需要配置Canal Server和Canal Client,其中Canal Server需要连接MySQL数据库,并开启Binlog日志功能。Canal Client需要连接Canal Server,接收MySQL数据库的变更事件,并将事件转换为对应的消息格式发送到Kafka中。 同时,需要根据业务需求配置Canal Adapter,将MySQL数据库的数据变更事件转化为Kafka消息队列的消息格式,并发送到Kafka中。 总之,Canal是一款可靠高效的增量数据同步工具,可以帮助企业快速实现数据的分布式同步和多数据源之间的数据交换。在实际应用中,可以结合其他开源工具,如Flink、Presto等,构建出一套全方位的数据处理和分析平台,实现数据的快速处理和洞察。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值