1. 说明
本文档是介绍的是两张字段完全一致的表如何比较表中的数据是否完全相同,没有复杂语法,理论上是用于所有数据库、数仓仓库和执行引擎。
2. 示例代码
select col1, col2, col3, col4, col5 ...
from (
select col1, col2, col3, col4, col5 ...
from test.table1
union all
select col1, col2, col3, col4, col5 ...
from test.table2
) as a
group by col1, col2, col3, col4, col5 ...
having count(1) % 2 != 0
order by col1 ...
3. 原理
将两张表所有要对比的字段全部 union all 起来,然后对所有字段进行分组 group by,然后看数据条数是否为 2 的整数倍,也就是看数据条数对 2 取整结果是否为 0
解释:
- 如果表有主键/联合主键,单个表中数据不重复,则两张表数据合并之后,全字段分组,如果各组数据条数应该固定为 2,表示没有 diff 数据;如果某个分组的数据条数为 1,表示有 diff 数据,这个组只出现在一张表中。
- 如果表没有主键/联合主键,单个表中数据可能会有重复,则两张表数据合并之后,全字段分组,如果各组数据条数为 2 的整数倍(也就是对 2 取余结果为 0),表示没有 diff 数据;如果某个分组的数据条数为单数(也就是对 2 取余结果为 1),表示有 diff 数据,这个组在两张表中出现的数据条数不一致,所以两张表数据合并之后,该组数据条数为单数。
- 最后的 order 字段,可以按照自己的需求进行编写,一般是表的主键/联合主键,以便查看到底是哪个字段值在两张表中不一样。