oracle 去除数据治理之去除重复数据

最新推荐文章于 2024-04-06 22:20:19 发布

_向前

最新推荐文章于 2024-04-06 22:20:19 发布

阅读量513

点赞数

文章标签： oracle 数学建模数据库

本文链接：https://blog.csdn.net/m0_58654936/article/details/131043335

版权

文章讲述了在数据库中处理重复数据的两种方法。对于数据量较小的情况，可以通过SQL删除除主键外重复的记录。而对于大数据量，建议复制表，利用窗口函数row_number()进行分区并保留唯一记录，然后将清洗后的数据复制回原表。

摘要由CSDN通过智能技术生成

首先假如我们出现了问题数据有很多值是一样的

比如我们有一个学生表建表sql如下

--创建表
create table tb_student_score(id int,sid int,name varchar2(20),kid int,kname varchar2(20),score int);
 
--插入数据
insert into tb_student_score values(1,2018001,'张三',0001,'数学',69);
insert into tb_student_score values(2,2018002,'李四',0001,'数学',89);
insert into tb_student_score values(3,2018001,'张三',0001,'数学',69);
insert into tb_student_score values(4,2018002,'李四',0002,'语文',79);
insert into tb_student_score values(5,2018001,'张三',0002,'语文',80);
insert into tb_student_score values(6,2018002,'李四',0002,'语文',79);
 
commit;

可以看出除了id外我们存在一些重复的数据

我们可以使用删除的方式进行删除(数据量不太大的情况下可以使用)

我们可以对除了id外的其他字段进行分组找出最小的sid然后删除代码如下

DELETE FROM tb_student_score
where id not in ( 
          select min(id)
          from tb_student_score
          group by sid,name,kid,kname,score 
          )

假如数据量特别大的话不建议使用删除的方法因为会特别的耗时

此时可以采用复制表的策略

首先根据表里的字段那写数据定位这条数据的唯一性进行分区然后取第一条栗子如下：

--首先可以根据字段分区作为唯一标识
select * from (       
select t.*,row_number() over(partition by sid,name,kid,kname,score order by sid) as rank
 from  tb_student_score t 
 )   where rank = 1
--这样子里面的数据就保证没有重复了 
--然后可以把这个查询出来的结果放到一个中间表里面去 
create table tb_student_score_bak 
as 
select * from (       
select t.*,row_number() over(partition by sid,name,kid,kname,score order by sid) as rank
 from  tb_student_score t 
 )   where rank = 1
--这样这个中间表里面的数据就是没有重复的了
--然后删除原表 把中间表里面的数据复制到原表里面 就可以了