利用canal解析本地binlog

背景

前段时间,发现唯一单号重复,由于时间跨度比较大,排除因为并发问题导致。因为唯一单号生成方法是中通通用方案,其他系统没有出问题,方法有Bug的几率较小。故很有可能是逻辑问题导致,想看一下单号的生成轨迹

本地binlog回溯代码展示

  1. 需要准备的环境:
    1.1 本地安装mysql,并创建监听binlog里的表结构(解析需要其表结构数据)
  2. 测试代码如下
    package com.zhangjie.intl.test;
    
    import com.alibaba.otter.canal.filter.aviater.AviaterRegexFilter;
    import com.alibaba.otter.canal.parse.inbound.mysql.LocalBinlogEventParser;
    import com.alibaba.otter.canal.parse.index.AbstractLogPositionManager;
    import com.alibaba.otter.canal.parse.support.AuthenticationInfo;
    import com.alibaba.otter.canal.protocol.CanalEntry;
    import com.alibaba.otter.canal.protocol.position.EntryPosition;
    import com.alibaba.otter.canal.protocol.position.LogPosition;
    import com.alibaba.otter.canal.sink.exception.CanalSinkException;
    import com.zto.intl.log.logger.DataChangeLogger;
    import com.zto.intl.log.utils.LogUtil;
    import com.zto.titans.common.util.JsonUtil;
    import org.apache.rocketmq.logging.InternalLogger;
    import org.junit.Test;
    
    import java.net.InetSocketAddress;
    import java.util.LinkedHashMap;
    import java.util.List;
    import java.util.Map;
    import java.util.concurrent.CountDownLatch;
    
    /**
     * @ClassName LocalBinlogEventParserTest
     * @Description: 本地Binlog回溯
     * @author: zhangjie
     * @Date: 2021/12/12 10:21
     **/
    public class LocalBinlogEventParserTest {
       //自定义日志输出(可以替换log4j输出)
        private final InternalLogger dataChangeLog = DataChangeLogger.getLog("express");
        private static final String MYSQL_ADDRESS = "127.0.0.1";
        private static final String USERNAME      = "canal";
        private static final String PASSWORD      = "canal";
        // 需要提前在该目录放好binlog文件
        private static final String directory = "C:\\project\\canal\\parse\\src\\test\\resources\\binlogs";
    
        @Test
        public void test() throws InterruptedException {
            final EntryPosition defaultPosition = buildPosition("mysql-bin.000864", null, 1638543000000L);
            final LocalBinlogEventParser controller = new LocalBinlogEventParser();
            controller.setMasterPosition(defaultPosition);
            controller.setMasterInfo(buildAuthentication());
            controller.setDirectory(directory);
            // AbstractCanalEventSinkTest实现CanalEventSink接口
            controller.setEventSink(new AbstractCanalEventSinkTest<List<CanalEntry.Entry>>() {
                @Override
                public boolean sink(List<CanalEntry.Entry> entries, InetSocketAddress inetSocketAddress, String s) throws CanalSinkException, InterruptedException {
                    logRecordEntry(entries);
                    return true;
                }
            });
            // 过滤(只监听cexpress.po_order的变化)
            controller.setEventFilter(new AviaterRegexFilter("cexpress.po_order"));
            // 设置自定义position管理
            controller.setLogPositionManager(new AbstractLogPositionManager() {
    
                public void persistLogPosition(String destination, LogPosition logPosition) {
    //                System.out.println(logPosition);
                }
    
                @Override
                public LogPosition getLatestIndexBy(String destination) {
                    return null;
                }
            });
            controller.start();
    
            CountDownLatch countDownLatch = new CountDownLatch(1);
            countDownLatch.await();
        }
    
        private EntryPosition buildPosition(String binlogFile, Long offest, Long timestamp) {
            return new EntryPosition(binlogFile, offest, timestamp);
        }
    
        private AuthenticationInfo buildAuthentication() {
            return new AuthenticationInfo(new InetSocketAddress(MYSQL_ADDRESS, 3306), USERNAME, PASSWORD);
        }
    
        private void logRecordEntry(List<CanalEntry.Entry> entrys) {
            for (CanalEntry.Entry entry : entrys) {
                if (entry.getEntryType() == CanalEntry.EntryType.TRANSACTIONBEGIN
                        || entry.getEntryType() == CanalEntry.EntryType.TRANSACTIONEND) {
                    continue;
                }
    
                if (entry.getEntryType() == CanalEntry.EntryType.ROWDATA) {
                    CanalEntry.RowChange rowChange;
                    try {
                        rowChange = CanalEntry.RowChange.parseFrom(entry.getStoreValue());
                    } catch (Exception e) {
                        throw new RuntimeException("ERROR ## parser of eromanga-event has an error , data:"
                                + entry.toString(), e);
                    }
    
                    CanalEntry.EventType eventType = rowChange.getEventType();
                    String tableName = entry.getHeader().getTableName();
                    for (CanalEntry.RowData rowData : rowChange.getRowDatasList()) {
                        if (eventType == CanalEntry.EventType.DELETE) {
                            List<CanalEntry.Column> beforeColumnsList = rowData.getBeforeColumnsList();
                            Map<String,String> columnDataMap = getColumnDataMap(beforeColumnsList);
                            dataChangeLog.info("删除{}表记录前的数据:{}",tableName, JsonUtil.toJSON(columnDataMap));
                        } else if (eventType == CanalEntry.EventType.INSERT) {
                            List<CanalEntry.Column> afterColumnsList = rowData.getAfterColumnsList();
                            dataChangeLog.info("新增{}表的数据:{}",tableName, LogUtil.generateRowDataLog(afterColumnsList));
                        } else {
                            List<CanalEntry.Column> beforeColumnsList = rowData.getBeforeColumnsList();
                            List<CanalEntry.Column> afterColumnsList = rowData.getAfterColumnsList();
                            dataChangeLog.info("更新{}表的变更数据:{}",tableName,
                                    LogUtil.generateRowDataDiffLog(beforeColumnsList,afterColumnsList));
                        }
                    }
                }
            }
        }
    
        private Map<String,String> getColumnDataMap(List<CanalEntry.Column> beforeColumnsList){
            Map<String,String> columnDataMap = new LinkedHashMap<>();
            for(CanalEntry.Column column : beforeColumnsList){
                columnDataMap.put(column.getName(),column.getValue());
            }
            return columnDataMap;
        }
    }
    

步骤分析

下载binlog文件到本地

  1. 应用使用的阿里云RDS,它提供一种查询Binlog日志的接口
    1.1 需要登录的阿里云账号有权限
    1.2 点击调试,输入实例ID、查询开始时间、查询结束时间
    1.3 点击返回的DownloadLink进行下载binlog(每个binlog文件都有记录的开始时间以及结束时间)
    (1)返回LogBeginTime是UTC时间,需要+8小时处理
  2. 在写好代码调式没问题后,准备真正解析线上binlog时发现已经查不到了,所以猜测默认过期时间是7天
  3. 通过观察返回结果,发现每个binlog记录时间会有重叠部分
    {
      "TotalRecordCount": 3,
      "PageRecordCount": 3,
      "RequestId": "BAD40DDB-4506-5568-A33D-9475C59807A1",
      "PageNumber": 1,
      "TotalFileSize": "1572994846",
      "Items": {
      	"BinLogFile": [
      		{
      			 "DownloadLink":"https://xxxxxxxx/mysql-bin.000864"
    	  		 "LogBeginTime": "2021-12-03T14:43:16Z",
    	  		 "LogEndTime": "2021-12-03T17:30:39Z"
      		},
      		{
      			 "DownloadLink":"https://xxxxxxxx/mysql-bin.002711"
    	  		 "LogBeginTime": "2021-12-03T12:48:50Z",
    	  		 "LogEndTime": "2021-12-03T16:08:07Z"
      		}
      	]
      }
    }
    

利用canal的LocalBinlogEventParser解析binlog

  1. 在成功解析本地binlog之前,还是遇到一些问题,但都是因为不太熟的原因导致,下面先梳理一下LocalBinlogEventParser的解析流程
  2. 下面先总结一下整个解析的过程
    在这里插入图片描述
    2.1 读取目录中binlog文件列表并赋值到binlogs属性中
    2.2 获取最后的位置信息(可以自定义位置管理器:logPositionManager)
    2.3 dump数据,将解析日志事件发布到disruptor中处理

disruptor在canal中使用

  1. 更详细的介绍参考丁威老师的《Disruptor使用实战》
    1.1 解析binlog的目的是提取数据的变化,即DML语句(插入、更新、删除),将这些数据变更在目标端进行重放,为了提高性能,采用disruptor框架提高性能
    (1)将解析动作分解为两步,第一步判断事件是否是dml事件,即是否需要解析
    (2)解析dml

  2. SimpleParserStage#onEvent 判断是否是DML事件
    2.1 判断是否是DML事件,是则获取表的元数据(表结构)

    LogEvent logEvent = event.getEvent();
    // DML事件:LogEvent.WRITE_ROWS_EVENT(30)
                         LogEvent.UPDATE_ROWS_EVENT(31)
                         LogEvent.DELETE_ROWS_EVENT(32)
    int eventType = logEvent.getHeader().getType();
    

    2.2 从缓存tableMetaCache中获取表元数据

     // TableMetaCache#getTableMeta
    public synchronized TableMeta getTableMeta(String schema, String table, boolean useCache, EntryPosition position) {
         // tableMetaDB为guava的LoadingCache,没有执行show create table `cexpress`.`pb_order_hx`命令查询
    	 return tableMetaDB.getUnchecked(getFullName(schema, table));
    }
    
  3. DmlParserStage#onEvent 解析DML
    3.1 构建RowChange(数据变更)信息(需要表元数据信息)
    3.2 将rowChange封装在Entry中

  4. SinkStoreStage#onEvent
    4.1 将entry放入事务缓冲区

    public void onEvent(MessageEvent event, long sequence, boolean endOfBatch) throws Exception {
    	// 如果entry不为空,则放入到事务缓冲区中
    	if (event.getEntry() != null) {
             transactionBuffer.add(event.getEntry());
        }
    }
    

    4.2 EventTransactionBuffer#add 如果事务结束则刷新数据

    public void add(CanalEntry.Entry entry) throws InterruptedException {
    	switch (entry.getEntryType()) {
            case TRANSACTIONBEGIN:
                flush();// 刷新上一次的数据
                put(entry);
                break;
            case TRANSACTIONEND:
                put(entry);
                // 会触发自定义回调函数:CanalEventSink#sink(在这里做业务处理),更新position
                flush();
                break;
            case ROWDATA:
                put(entry);
                // 针对非DML的数据,直接输出,不进行buffer控制
                EventType eventType = entry.getHeader().getEventType();
                if (eventType != null && !isDml(eventType)) {
                    flush();
                }
                break;
           }
    }      
    
    public AbstractEventParser(){
    	 // 初始化一下
        transactionBuffer = new EventTransactionBuffer(transaction -> {
            // 触发自定义消费事务消息
            boolean successed = consumeTheEventAndProfilingIfNecessary(transaction);
            if (!running) {
                return;
            }
    
            if (!successed) {
                throw new CanalParseException("consume failed!");
            }
    
            LogPosition position = buildLastTransactionPosition(transaction);
            if (position != null) { // 可能position为空
            	// 更新position
                logPositionManager.persistLogPosition(AbstractEventParser.this.destination, position);
            }
        });
    }
    
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,下面是一个基于 Canal、Kafka 和 PySpark Streaming 的实时案例,用于将 MySQL 数据库中的增量数据读取并发送到 Kafka,并通过 PySpark Streaming 进行实时计算。具体步骤如下: 1. 首先需要安装并启动 Canal 和 Kafka。 2. 创建一个 Python 脚本,使用 Canal 客户端连接到 Canal Server,并订阅指定的 MySQL 数据库和表。然后将解析出的增量数据发送到 Kafka。 ```python from canal.client import Client from kafka import KafkaProducer import json # 创建Canal客户端对象 client = Client() client.connect(host='127.0.0.1', port=11111) client.check_valid(username=b'', password=b'') # 创建Kafka生产者对象 producer = KafkaProducer(bootstrap_servers='127.0.0.1:9092') # 订阅指定的数据库和表 client.subscribe(client_id='1001', destination='example', filter='.*\\..*') try: while True: message = client.get(batch_size=100, timeout=100) for entry in message.get('entries'): if entry.entryType == 'ROWDATA': row_change = entry.rowChange event_type = row_change.eventType for row_data in row_change.rowDatas: row_dict = {} for column in row_data.afterColumns: row_dict[column.name] = column.value # 将解析出的增量数据发送到Kafka producer.send(topic='example', value=json.dumps(row_dict).encode('utf-8')) except Exception as e: print(e) finally: client.disconnect() ``` 上述代码中,首先创建了一个 Canal 客户端对象,并连接到 Canal Server。然后创建了一个 Kafka 生产者对象,用于将解析出的增量数据发送到 Kafka。接着,订阅了指定的 MySQL 数据库和表,并循环获取增量数据。对于每个增量数据,将其转换为字典格式,并使用 `json.dumps` 方法将字典编码为 JSON 字符串,并使用 Kafka 生产者将其发送到指定的 Kafka 主题中。 3. 创建一个 PySpark Streaming 应用程序,从 Kafka 主题中读取增量数据,并进行实时计算。例如,以下代码用于计算每隔5秒钟的单词计数: ```python from pyspark import SparkConf, SparkContext from pyspark.streaming import StreamingContext from pyspark.streaming.kafka import KafkaUtils import json # 创建SparkConf对象 conf = SparkConf().setAppName("Real-time Word Count") # 创建SparkContext对象 sc = SparkContext(conf=conf) # 创建StreamingContext对象,每隔5秒钟处理一次数据 ssc = StreamingContext(sc, 5) # 从Kafka读取数据 kafka_params = { "bootstrap.servers": "127.0.0.1:9092", "group.id": "example" } kafka_stream = KafkaUtils.createDirectStream( ssc, ["example"], kafka_params ) # 对Kafka中的每条消息进行解析并扁平化处理 messages = kafka_stream.map(lambda x: json.loads(x[1])) words = messages.flatMap(lambda x: x.values()) # 对每个单词进行计数 word_counts = words.map(lambda word: (word, 1)).reduceByKey(lambda a, b: a + b) # 打印计数结果 word_counts.pprint() # 启动StreamingContext并等待它完成 ssc.start() ssc.awaitTermination() ``` 上述代码中,首先创建了一个 `SparkConf` 对象,用于设置应用程序名称。然后创建了一个 `SparkContext` 对象,用于连接到 Spark 集群。接着,创建了一个 `StreamingContext` 对象,并设置每隔5秒钟处理一次数据。然后使用 `createDirectStream` 方法从 Kafka 主题中读取数据,并使用 `json.loads` 方法将 JSON 字符串转换为字典格式。接着,对字典中的值进行扁平化处理,并使用 `map` 和 `reduceByKey` 方法对每个单词进行计数。最后,使用 `pprint` 方法打印计数结果。最后启动 `StreamingContext` 并等待它完成。 运行上述代码后,您应该可以在终端看到类似以下的结果: ``` ------------------------------------------- Time: 2022-10-20 16:00:05 ------------------------------------------- (PySpark, 1) (Streaming, 1) (Hello, 1) (PySparkStreaming, 1) (World, 1) ------------------------------------------- Time: 2022-10-20 16:00:10 ------------------------------------------- (PySpark, 2) (Streaming, 1) (Hello, 2) (PySparkStreaming, 1) (World, 1) ``` 注意,以上代码仅提供了一个简单的示例,实际的 Canal 和 PySpark Streaming 应用程序可能需要更多的配置和代码来实现特定的需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值