存储优化 - 删除重复记录只保留单条

最新推荐文章于 2024-11-07 15:10:30 发布

weixin_34067049

最新推荐文章于 2024-11-07 15:10:30 发布

阅读量117

点赞数

文章标签：数据库数据结构与算法前端 ViewUI

原文链接：http://www.cnblogs.com/levinlee/archive/2010/03/18/1688580.html

版权

由于前端提交处理做的不到位或者数据库设计的不够合理，库中通常会存在一些冗余数据，比如重复记录就是一种，那这样的记录如何删除呢？

我们先看一下相关数据结构的知识。

在学习线性表的时候，曾有这样一个例题。

已知一个存储整数的顺序表La，试构造顺序表Lb，要求顺序表Lb中只包含顺序表La中所有值不相同的数据元素。
算法思路：
先把顺序表La的第一个元素付给顺序表Lb，然后从顺序表La的第2个元素起，每一个元素与顺序表Lb中的每一个元素进行比较，如果不相同，则把该元素附加到顺序表Lb的末尾。

1 public SeqList < int > Purge(SeqList < int > La)
2 {
3 SeqList < int > Lb = new SeqList < int > (La.Maxsize);
4 // 将a表中的第1个数据元素赋给b表
5 Lb.Append(La[ 0 ]);
6 // 依次处理a表中的数据元素
7 for ( int i = 1 ; i <= La.GetLength() - 1 ; ++ i)
8 {
9 int j = 0 ;
10 // 查看b表中有无与a表中相同的数据元素
11 for (j = 0 ; j <= Lb.GetLength() - 1 ; ++ j)
12 {
13 // 有相同的数据元素
14 if (La[i].CompareTo(Lb[j]) == 0 )
15 {
16 break ;
17 }
18 }
19 // 没有相同的数据元素，将a表中的数据元素附加到b表的末尾。
20 if (j > Lb.GetLength() - 1 )
21 {
22 Lb.Append(La[i]);
23 }
24 return Lb;
25 }
26 }

如果理解了这个思路，那么数据库中的处理就好办了。

我们可以做一个临时表来解决问题

1 select distinct * into #Tmp from tableName
2 drop table tableName
3 select * into tableName from #Tmp
4 drop table #Tmp

发生这种重复的原因是表设计不周产生的，增加唯一索引列即可解决。

但是你说了，我不想增加任何字段，但这时候又没有显式的标识列，怎么取出标识列呢？（可以是序号列，GUID，等）

上个问题先不讲，先看看这个问题。

我们分别在三种数据库中看一下处理办法，就是通常我们用的Sqlserver2000,Sqlserver2005,Oracle 10g.

1. SQL Server 2000 构造序号列

方法一：

SELECT 序号 =
( SELECT COUNT (客户编号) FROM 客户 AS a WHERE a.客户编号 <= b.客户编号),
客户编号,公司名称 FROM 客户 AS b ORDER BY 1 ;

方法二：

SELECT 序号 = COUNT ( * ),
a.客户编号, a.公司名称 FROM 客户 AS a, 客户 AS b
WHERE a.客户编号 >= b.客户编号 GROUP BY a.客户编号, b.公司名称 ORDER BY 序号;

2. SQL Server 2005 构造序号列

方法一：
SELECT RANK() OVER ( ORDER BY 客户编号 DESC ) AS 序号, 客户编号,公司名称 FROM 客户;

方法二:
WITH TABLE AS
( SELECT ROW_NUMBER() OVER ( ORDER BY 客户编号 DESC ) AS 序号, 客户编号,公司名称 FROM 客户)
SELECT * FROM TABLE
WHERE 序号 BETWEEN 1 AND 3 ;

3. Oracle 里 rowid 也可看做默认标识列

在Oracle中，每一条记录都有一个rowid，rowid在整个数据库中是唯一的，rowid确定了每条记录是在Oracle中的哪一个数据文件、块、行上。
在重复的记录中，可能所有列的内容都相同，但rowid不会相同，所以只要确定出重复记录中那些具有最大rowid的就可以了，其余全部删除。

select * from test;
select * from test group by id having count ( * ) > 1
select * from test group by id
select distinct * from test
delete from test a where a.rowid != ( select max (rowid) from test b where a.id = b.id);

扯远了，回到原来的问题，除了采用数据结构的思想来处理，因为数据库特有的事务处理，能够把数据缓存在线程池里，这样也相当于临时表的功能，所以，我们还可以用游标来解决删除重复记录的问题。

1 declare @max int ,
2 @id int
3 declare cur_rows cursor local for select id , count ( * ) from test group by id having count ( * ) > 1
4 open cur_rows
5 fetch cur_rows into @id , @max
6 while @@fetch_status = 0
7 begin
8 select @max = @max - 1

9 set rowcount @max -- 让这个时候的行数等于少了一行的统计数
10 delete from test where id = @id
11 fetch cur_rows into @id , @max
12 end
13 close cur_rows
14 set rowcount 0

以上是闪电查阅一些资料写出的想法，有考虑不周的地方，欢迎大家指出。

转载于:https://www.cnblogs.com/levinlee/archive/2010/03/18/1688580.html