记录一下在实际开发中遇到的Mysql查询数据丢失的问题!
背景
定时跑批将日期数据推送到RabbitMQ中,然后消费消息调用其它部门的接口将数据推送。
问题
当天总共114条数据,但推送到其它部门中始终有6条数据丢失,重复推送也无济于事。
开始排查
查看生产日志、RabbitMQ日志,发现这6条数据确实是我们没有推送过去,但其它时间和当天的其它数据推送正常,唯独当天的部分数据不正常,后面就开始检查代码(将数据拷贝到测试系统重新推送也没有问题,当时感觉很怪异)
发现原因
mysql order by 相同值的数据列+limit分页导致数据重复问题。
为了防止数量过大、查询时间久的考虑,使用了分页查询分批推送数据(上述代码可以看出,每次查询最多100条),sql就等于…… order by refund_time limit 0,100;,而其中的refund_time是存在重复的,根据Mysql官网文档指出,如下(具体limit分页优化见官网);则造成了第2页分页查询时,返回了重复数据;
如果多行在列中具有相同的值ORDER BY,服务器可以自由地以任何顺序返回这些行,并且可能会根据整体执行计划以不同的方式返回。换句话说,这些行的排序顺序对于无序列是不确定的。
Mysql官网文档地址:https://dev.mysql.com/doc/refman/5.7/en/limit-optimization.html
解决方案
- 使用不重复的列排序,如改成使用id列(推荐);
- 不使用order by字段;
下图是我将问题和2种解决方案分别分页查询,在excel中做数据重复显示,黄色背景的就是orede by refund_time + limit分页造成的重复数据,刚好6条,和丢失的数量吻合。