MySql百万级数据去重保留一份，一对多合并处理

最新推荐文章于 2024-07-30 08:00:00 发布

IBLiplus

最新推荐文章于 2024-07-30 08:00:00 发布

阅读量1.7k

点赞数 1

分类专栏：数据库文章标签： MySql 数据去重一对多合并处理

本文链接：https://blog.csdn.net/ibliplus/article/details/86561434

版权

本文讲述了如何处理140万条重复数据，通过两种方法进行数据去重和一对多合并，最终降至1万条。第一种方法利用唯一性约束字段排序并删除非最小ID的重复数据，注意SQL编写时的错误与限制。第二种方法则是直接将30万条处理后的数据导入新表，实现1对多处理。

摘要由CSDN通过智能技术生成

最近帮运维组处理了一份急着上架的数据，大概有140万量，下面我们看一下是怎样处理的吧。

这批数据大部分都是重复的，经过处理的数据大概在30万左右，然后进行一对多合并处理，最后的数据量大概在1万左右。

下面提供了两种方法或思路，第一种思路是网上提供的比较多的一种，就是通过唯一性约束的字段进行排序，然后查询处理出来的这些数据都是重复数据的第一条，所以id必然是这些重复数据最小的，然后删除调这些重复数据中id不是最小的就可以得出筛选结果了。

当然数据上面设计到商业保密，这里我就自己创建一个demo了。

sql如下：

// 将重复数据的id最小的一条筛选出来，第二步进行删除
select id FROM haha
where CONCAT(namea,sex,num) in (
   SELECT CONCAT(namea,sex,num) FROM haha 
		GROUP BY CONCAT(namea,sex,num) 
		HAVING count(id> 1)
) 

//进行删除操作，删除冗余数据
DELETE FROM haha where id in (
select id FROM haha
where CONCAT(namea,sex,num) in (
   SELECT CONCAT(namea,sex,num) FROM haha 
		GROUP BY CONCAT(namea,sex,num) 
		HAVING count(id> 1)
) 
and id not in (
SELECT MIN(id) as id  FROM haha 
GROUP BY CONCAT(namea,sex,num) 
HAVING COUNT(id > 1)
))

当然写sql的过程中也遇到一些错误，

1、select