前言
在网易互联网业务中,网易杭研自研的MySQL中间件DDB大量使用,DDB的分布式事务基于MySQL XA,由于MySQL 5.7修改了XA事务记录Binlog的逻辑,导致出现大量corner case,DDB下的MySQL实例也深受其害,典型的问题就是XA事务引发的复制错误,包括加锁超时,复制夯住等。
在之前的文章中,提到网易某些业务使用MyRocks作为延迟从库来提升核心数据的安全性。在延迟从库使用过程中,也遇到了与XA事务相关的一些问题。一个典型的案例就是上游从库(db-4)产生的匿名事务导致延迟从库(下面案例中的db-5)复制中断。
本文着重分析为什么在GTID_MODE为ON的情况下,还会产生匿名事务。
线上问题:
延迟从库复制中断,错误日志为:Got fatal error 1236 from master when reading data from binary log: 'Cannot replicate anonymous transaction when AUTO_POSITION = 1。
错误日志的意思是gtid_mod=on的情况下,不能执行 Anonymous_GTID 的事务。
复制的拓扑如下:
--> db-3:4332 (主库)
--> db-4:4332 (从库) ——>出现因Lock wait timeout exceeded复制中断
-->db-5:4336 (延迟从库) ------>匿名事务导致复制中断
延迟从库的上游主库复制出了问题,加锁超时导致复制中断,并且因为开启了slave-preserve-commit-order参数,导致有2个xa commit事务提交失败。
根据错误日志中提示的binlog文件,解析该binlog文件,内容如下:
可以看到被阻塞提交的事务在db-4的binlog中变成了匿名事务。这样在延迟从库db-5上回放就报了文章开头日志中的错误。
产生匿名事务的条件
GTID 的产生是在 ordered_commit()函数的flush 阶段完成的,产生GTID_log_event的函数是MYSQL_BIN_LOG::write_gtid ,