1. 需求描述
一个表中存在重复数据,当然重复数据判定的标准可能不一样,例如:表中记录一模一样,或者表中的记录某几个字段一模一样,这个时候需要将重复的记录删除,在此给出我常用的一种方法。
2. 解决方案
假设存在表A(table_a),重复字段columns(column1,column2,column3…),存在索引idx_columns
drop table if exists table_a_tmp;
drop table if exists table_a_delete;
create table table_a_tmp like table_a;
create table table_a_delete like table_a;
alter table
table_a_tmp
add
column total int default 1;
insert into
table_a_tmp(id, [columns], total) (
select
min(id) as id,
[columns],
count(*) as total
from
table_a
group by
[columns]
having
total > 1
);
insert into
table_a_delete (
select
*
from
table_a
where
not exists (select 1 from table_a_tmp where table_a_tmp.id = table_a.id)
and exists (select 1 from table_a_tmp where table_a_tmp.[columns] = table_a.[columns])
);
值得一提的是: 这个方法只在数据量比较小的时候的比较小的时候进行过测试【3W条数据】。