一边查询一边删除:
最近在做一个功能,是一个清除脏数据的一个功能,去数据库中查询每一条数据,判断数据是脏数据,如果是脏数据就删除这一条数据,如果不是脏数据就保留这一条数据。
刚开始思路是这样子的,分页去读取数据库中的数据,然后去判断每一页是否有脏数据,如果有脏数据就直接删除。
按照这个思路做完功能后去验证功能有没有问题时发现总是有些脏数据没有被删除,按理把表里的数据都查了一边,判断也正常,不应该出现数据没有被删除的清空,经过一个多小时的研究发现是我在一边查询数据库数据一边删除数据库数据的问题。
场景还原一下: 现在 user 表有300条数据
现在分页去读取user表的数据,每页100条,然后判断是否有脏数据需要清除,如果有则清除脏数据。
第一次查询,数据库有300条数据: select * from user limit 0,100;
删除了50条数据,这时数据库有250条数据。
第二次查询,数据库有250条数据:select * from user limit 101,200;
删除了60条数据,这时数据库有190条数据。
第三次查询,数据库有190条数据:select * from user limit 201,300;
第三次查询就出现问题了,因为现在数据库中只有190条数据了.则是limit 201,300 是查不出数据的,所以导致有一部分数据是没有处理的。
如何处理:
数据量小的话,直接读全表,快照表中的数据到内存。
数据量大的话,可以先获取表中所有数据的id,再通过id去分页查询数据。
一边新增一边查询判断:
如果是主从架构的数据库,新增后可能还没将数据同步到从库就进行查询了,会查询不到最新插入的数据。所以在新增完马上需要查询的这种场景下需要强制查询主库数据。