双表数据相同性比较

从ITpub看到的,方法不错,但是group by 注定了它的缺点


首先假设有这样两个表a和b,它的结构完全一样各有3个字段a1 a2 a3和b1 b2 b3,
现在要比较它们之间表数据的不同,
我们有
select a1,a2,a3,count(src1),count(src2) from (
select a1,a2,a3,1 src1, null src2
from a
union all
select b1 as a1,b2 as a2,b3 as a3,null src1,2 src2
from b )
group by a1,a2,a3
having count(src1)<>count(src2)
现在我来解释它的原理,
它首先将两表的数据全扫描,这样所有数据就是一个完整的集合,包括了表a和b的并集,
当group by的时候自动就唯一了。
然后,我们看count部分,这部分是十分经典的
首先虚拟了一个src1这个列,对于第一个表的数据都是1,第二表都是null
由于count字段不记录null的数值,那么就构造了只记录表a数据的一个count
如果a表中有两个重复的行,那么对于a中的这两个重复行,1就出现两次,那么count就记录2,也就是说src1可以记录表a出现该条记录的行数
同理src2记录表b出现的行数,最后通过行数一比较就能取出两个表不一致的地方。
它的优点:1.即使表中有重复行没有关系2.对于大数据量,具有更大的可扩展性,只需对两表一次全扫和一遍group by即可。
3.高度的普适用性,我们论坛的会员可以很容易就将它改写成比较某几个字段,某几个条件的比较。
4.表的个数可以扩展,可以比较3个表,4个表,5个表的不同的数据,只需要多加src列,然后定义count的比较规则即可。
它的缺点:表数据量太大一次group by的成本还是很高,可以按照逻辑字段的分成几块比较。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值