删除数据库重复数据
原因
为什么需要我们删除
数据库的重复
数据呢?多数是因为
数据库设计者在设计数据库时的
疏漏,没有对不该重复的实体或字段加以限制。
分类
数据重复一般可分为二类,根据不同的重复类型有不同的解决方法。
第一类重复:
实体重复,完全重复:即所有字段完全重复。
第二类重复:
字段重复:某一个或多个不该重复的字段重复了,比如Name字段重复。
目的
删除重复
数据
是为了保护数据的
安全性
,
完整性
,可维护性等等。
解决方法
方法一:
对于完全重复的记录,比较容易解决,使用 select distinct * from tableName 就可以得到无重复记录的
结果集
。
如果该表需要删除重复的记录(重复记录保留1条),可以按以下方法删除
select distinct * into #Tmp from tableName
drop table tableName
select * into tableName from #Tmp
drop table #Tmp
发生这种重复的原因是表设计不周产生的,增加
唯一索引
列即可解决。
方法二:
字段重复,这类重复问题通常要求保留重复记录中的第一条记录,操作方法如下:
假设有重复的字段为Name要求得到这个字段唯一的结果集
select identity(int,1,1) as autoID, * into #Tmp from tableName
select min(autoID) as autoID into #Tmp2 from #Tmp group by Name
select * from #Tmp where autoID in(select autoID from #tmp2)
最后一个select即得到了Name不重复的
结果集
(但多了一个autoID字段,实际写时可以写在select子句中省去此列,如果要删除库里的重复
数据
,只要将对应的delectable或drop掉就可以了)。
方法三:
字段重复,删除表中多余的重复记录,要保证(rowname)字段不重复,只留有rowid(
标识列
)最小的记录
delete from tableName
where rowname in (select rowname from tableName group by rowname
having count(rowname ) > 1)
and rowid not in (select min(rowid) from tableName group by rowname having count(rowname )>1)
多个字段重复,只需加AND语句即可,例如:
delete from [userDB].[dbo].[testTable]
where Name in
(select Name from [userDB].[dbo].[testTable] group by Name having count(Name)>1)
and Code not in
(select min(Code) from [userDB].[dbo].[testTable] group by Name having count(Name)>1)
and [Password] in
(select [Password] from [userDB].[dbo].[testTable] group by [Password] having
count([Password])>1)
and Code not in
(select min(Code) from [userDB].[dbo].[testTable] group by [Password] having count([Password])>1)