如果有人可以验证我的SQL查询,我真的很感激.
对于以下数据集:
MD5 UserPK CategoryPK
ADCDE 1 7
ADCDE 1 4
ADCDE 1 7
dffrf 1 7
dffrf 2 7
dffrf 2 6
dffrf 1 1
我想选择MD5和CategoryPK,其中两行或更多行存在相同的MD5值,相同的CatgegoryPK和两个或更多不同的UserPK值.
换句话说,我想知道两个或更多不同用户(UserPK)为同一文件(Md5)分配了相同类别(UserPK)的所有记录的MD5和categoryPK.我对同一个用户多次分配类别的记录不感兴趣(除非另一个用户也为该文件分配了相同的类别).
所以从上面的数据来看,我想只返回:
md5 CategoryPK
dffrf 7
我写的查询是:
SELECT md5,
count(md5),
count(distinct categorypk) as cntcat,
count(distinct userpk) as cntpk
FROM Hash
group by md5 having count(md5) > 1
and cntpk > 1
and cntcat = 1;
它似乎有效,但在我开始使用它之前,我会欣赏第二个意见,以防我错过了某些内容或者是否有更好的方法.
谢谢