双表数据相同性比较

最新推荐文章于 2022-05-16 21:20:04 发布

amber112

最新推荐文章于 2022-05-16 21:20:04 发布

阅读量810

点赞数

分类专栏： oracle 文章标签： null 扩展

oracle 专栏收录该内容

59 篇文章 0 订阅

订阅专栏

从ITpub看到的，方法不错，但是group by 注定了它的缺点

首先假设有这样两个表a和b，它的结构完全一样各有3个字段a1 a2 a3和b1 b2 b3，
现在要比较它们之间表数据的不同，
我们有
select a1,a2,a3,count(src1),count(src2) from (
select a1,a2,a3,1 src1, null src2
from a
union all
select b1 as a1,b2 as a2,b3 as a3,null src1,2 src2
from b )
group by a1,a2,a3
having count(src1)<>count(src2)
现在我来解释它的原理，
它首先将两表的数据全扫描，这样所有数据就是一个完整的集合，包括了表a和b的并集，
当group by的时候自动就唯一了。
然后，我们看count部分，这部分是十分经典的
首先虚拟了一个src1这个列，对于第一个表的数据都是1，第二表都是null
由于count字段不记录null的数值，那么就构造了只记录表a数据的一个count
如果a表中有两个重复的行，那么对于a中的这两个重复行，1就出现两次，那么count就记录2，也就是说src1可以记录表a出现该条记录的行数
同理src2记录表b出现的行数，最后通过行数一比较就能取出两个表不一致的地方。
它的优点：1.即使表中有重复行没有关系2.对于大数据量，具有更大的可扩展性，只需对两表一次全扫和一遍group by即可。
3.高度的普适用性，我们论坛的会员可以很容易就将它改写成比较某几个字段，某几个条件的比较。
4.表的个数可以扩展，可以比较3个表，4个表，5个表的不同的数据，只需要多加src列，然后定义count的比较规则即可。
它的缺点：表数据量太大一次group by的成本还是很高，可以按照逻辑字段的分成几块比较。