现象是这样的: 同样一个功能,当小范围取数时结果正常,大范围取数时结果集里会随机出现错误行。
实现的时候不涉及随机数的操作。跟踪到后台发现大范围取数时结果集有问题,问题确认到和数据据库操作。
最后发现问题原来是这样产生的:由于数据量较大,采用了分批取数即先取整个数据集的前1万条,然后再后一万条。直到全部取完。然而,考虑到性能的问题,没有Order By进行排序,导致数据源的顺序不确定,进而造成了重复取数,或漏取。大概意思如下:
数据集如下:
初始 一
1 10
2 1
3 2
4 3
5 4
6 5
7 6
8 7
9 8
10 9
分批取数,每次取五个,假如第一次取数结果集顺序如第一例 取前五个得到:1,2,3,4,5
第二批取数顺序如第二列,取后五个时得到:5,6,7,8,9
这样通过整个分批取数得到的结果集为:1,2,3,4,5,5,6,7,8,9
这样就出现问题了。
当然,实际中这么少的数据不会出问题,我这里出现问题时,每批1W条。
这样就有个疑问。Select取得的结果集默认的顺序是如何的?哪些因素来影响这个顺序呢?
这问题留到有时间再看吧。
ps:order by 的key如果有重复键一样有问题。