基于Binlog的数据迁移


前言

关系模型构建起整个数据分析的基石,关系型数据库作为具体实现、采集MySQL数据接入Hive是很多企业进行数据分析的前提。如何及时、准确的把MySQL数据同步到Hive呢。


一、入Binlog实时采集 + 离线还原的解决方案

在这里插入图片描述

基于Binlog日志的数据还原,与在线业务解耦

采集通过分布式队列实时传递,还原操作在集群上实现,及时性及可扩展性强

Binlog日志包括了增、删、改等明细动作,支持定制化的ETL

二、使用步骤

1.Binlog

Binlog是二进制格式的日志文件,用来记录数据库的数据更新或者潜在更新(比如DELETE语句执行删除而实际并没有符合条件的数据),主要用于数据库的主从复制以及增量恢复。

一共有两种类型二进制记录方式:

Statement模式:每一条会修改数据的sql都会被记录在binlog中,如inserts, updates, deletes。

Row模式: 每一行的具体变更事件都会被记录在binlog中。

Mixed模式是以上两种level的混合使用,默认使用Statement模式,根据具体场景自动切换到Row模式,Row(Mixed)模式从MySQL 5.1版本起可用。

滴滴的MySQL Binlog使用Row模式,记录了每次对数据进行增删改查时,一行数据在变更前后的值,同时无论单列是否被改动,都会记录一行数据的完整信息。

2.Canal

纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB)。滴滴内部版本在开源基础上新增了同步到MQ、消息上报功能以及容灾机制。

Canal主要运作方式如下:

canal模拟mysql slave的交互协议,伪装自己为mysql slave,向master发送dump协议

mysql master收到dump请求,开始推送binary log到canal

canal解析binary log对象,并将解析的结果编码成JSON格式的文本串

把解析后的文本串发送到消息队列并上报发送情况(如Kafka、DDMQ)

该处使用的url网络请求的数据。


总结

日1.9w+同步任务,近50T数据同步量,实时层面毫秒级别延迟,实现了及时、准确、定制化的同步需求

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值