一千万条数据去重_数据库数据去重方法

nfs king

于 2021-01-13 22:24:12 发布

阅读量2.1k

点赞数

文章标签：一千万条数据去重

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28812943/article/details/112896879

版权

数据库数据去重方法

在大量数据库数据处理的时候，发现很多重复项，这些重复项给工作带来很多不便，那么，怎么才能更快的去重呢，有没有好的数据库数据去重方法呢，下面给大家推荐几种数据库数据去重方法，简单的了解下吧。

假设现在数据库中有一个人员表(user)，表中包括主键ID，，姓名、身份证号码、等字段。由于程序的的原因、好来发现表中有许多理论上重复的数据(即姓名、和身份证号相同的数据)，现在要求根据身份证号码和姓名去除表中的重复数据。

该怎么做呢，这里有一个方案可以参考一下：

select Max(ID) as Id,姓名,身份证号 from User group by 姓名,身份证号;

通过上面的这条Sql语句即可得到一份没有重复姓名和身份证号的一组数据，当然只等得到Id、姓名、和身份证号，其实我们真正想要的只有Id一列而已。因为我们只要得到没有重复数据的id就可以找出所有的并且不重复的数据了。

接下类我们使用嵌套的查询得到所有的不重复数据的Id

select Id from (select Max(ID) as Id,姓名,身份证号 from User group by 姓名,身份证号) as t

得到我们需要的ID之后我们可以有好几种选择：1、使用 not IN 删除所有Id不在以上查出的Id范围的数据。即删除重复的数据

delete form user where id not in (select Id from (select Max(ID) as Id,姓名,身份证号 from User group by 姓名,身份证号) as t );

使用not in 非常耗费数据库资源，并且如果数据量大的话，会非常的慢，可能会慢的难以忍受，因此不建议使用。

除了可以使用 Not In 之外还可以使用临时表的方法：

1、找出所有不重复的数据

select * into #temp1 from user where id in (select Id from (select Max(ID) as Id,姓名,身份证号 from User group by 姓名,身份证号) as t );

2,删除原表中的所有数据

delete from user；

3、将临时表中的数据在插入会user表

insert into user select * from #temp1;

4,删除临时表

drop #temp1；

现在总结一下我的思路

这里的关键是根据需要判断是否重复的字段分组后、使用聚合函数Max 或者Min得到唯一的ID，这一点十分重要、

喜欢 (1)or分享 (0)

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
一千万条数据去重_数据库数据去重方法

数据库数据去重方法在大量数据库数据处理的时候，发现很多重复项，这些重复项给工作带来很多不便，那么，怎么才能更快的去重呢，有没有好的数据库数据去重方法呢，下面给大家推荐几种数据库数据去重方法，简单的了解下吧。假设现在数据库中有一个人员表(user)，表中包括主键ID，，姓名、身份证号码、等字段。由于程序的的原因、好来发现表中有许多理论上重复的数据(即姓名、和身份证号相同的数据)，现在要求根据身份证...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。