在mysql中关于通过多字段去除重复记录的方法

最新推荐文章于 2024-04-27 10:32:35 发布

lm531142331

最新推荐文章于 2024-04-27 10:32:35 发布

阅读量1.6k

点赞数 1

分类专栏： mysql 文章标签：多字段去除重复 mysql

mysql 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

最近在研究一批网上获取的数据，记录条数约80多万条，单个表大小约 400M，表中重复记录约1/3，在网上查找了些去除重复记录（重复记录保留最小ID值）的sql语句，整理成如下：

DROP TABLE if exists tmp_table1 ;
DROP TABLE if exists tmp_table2 ;
CREATE TEMPORARY TABLE tmp_table1 SELECT id,a1,b1 FROM tb_test2;
CREATE TEMPORARY TABLE tmp_table2 SELECT id,a1,b1 FROM tb_test2;
delete from tb_test2 where (tb_test2.a1,tb_test2.b1) in (select tmp_table1.a1,tmp_table1.b1 from tmp_table1 group by tmp_table1.a1,tmp_table1.b1 having count(*) > 1)
and tb_test2.id not in (select min(tmp_table2.id) from tmp_table2 group by tmp_table2.a1,tmp_table2.b1 having count(*) > 1);

以上语句记录在数1万左右可以正常执行，但是上20万条左右记录时运行直接无反应（请高手指教一下以上语句是否可以做一下优化！）。

后通过寻求其他途径，思路如下：

创建一个表存储去重后记录的ID值：tb_id；

/*提取无重复的记录及重复记录以最小ID值提取,以a1,b1两个字段作为判断重复记录条件*/
create table tb_id select min(id) AS id from tb_test2 group by a1,b1;

创建一个表存储去重后的记录：tbl_qc；

通过游标方式从原始表中提取记录到去重后的表中，脚本后如下：

drop PROCEDURE if exists procedure_qc;
CREATE PROCEDURE procedure_qc( )
begin

/*参数声明*/
DECLARE num bigint ;
DECLARE id_dqcl INT; /*id_dqcl：当前处理的id*/

/*参数声明*/
    DECLARE cur CURSOR FOR SELECT id FROM tb_id;
    SELECT COUNT(*) INTO num FROM tb_id;
    OPEN cur;
    WHILE i<num DO
    FETCH cur INTO id_dqcl;

insert into tbl_qc select * from tb_test1 WHERE tb_test1.id = id_dqcl;

    SET i=i+1;
    END WHILE;
    CLOSE cur;
end ;

call procedure_qc();

在两个环境境中执行：

环境1：笔记本内存8G，CPU i7；耗时：约10小时

环境1：台式机内存16G，CPU i5；耗时：1159.361s

心得：

标准SQL可以按逻辑写出来，但不一定能有效执行（尽信书不如无书）；

性价比：笔记本相对于台式机太垃圾！
---------------------
作者：myskypb
来源：CSDN
原文：https://blog.csdn.net/myskypb/article/details/52016433?utm_source=copy
版权声明：本文为博主原创文章，转载请附上博文链接！

lm531142331

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
在mysql中关于通过多字段去除重复记录的方法

最近在研究一批网上获取的数据，记录条数约80多万条，单个表大小约 400M，表中重复记录约1/3，在网上查找了些去除重复记录（重复记录保留最小ID值）的sql语句，整理成如下：DROP TABLE if exists tmp_table1 ;DROP TABLE if exists tmp_table2 ;CREATE TEMPORARY TABLE tmp_table1 SELECT i...
复制链接

扫一扫