例如:表table_a字段含id(唯一),name;业务需要清除表中name值重复的数据,只保留一条。
测试1,删除重复数据,保留一条,有效。但只适合有两条重复的数据,因为group时只能查到一个ID,所以每次只能删除一条。
DELETE FROM table_a WHERE record_id IN (SELECT a.id FROM (
SELECT id FROM table_a GROUP BY name HAVING COUNT(*)>1) a);
测试2, 删除重复数据,保留一条,成功!
DELETE FROM table_a WHERE name IN (SELECT a.name FROM(
SELECT name FROM table_a GROUP BY name HAVING COUNT(name)>1) a)AND
id NOT IN (SELECT b.tempId FROM (SELECT MIN(id) tempId FROM table_a GROUP BY name
HAVING COUNT(name)>1) b);
过程中值得注意的是:
1.HAVING的使用,如果不使用having,可以这样:
DELETE FROM table_a WHERE record_id IN (SELECT a.id FROM (
SELECT id,COUNT(name) num FROM table_a GROUP BY name)a WHERE a.num>1);
而having配合group by的使用使sql语句更简洁。group by用来与聚合函数(COUNT, SUM, AVG, MIN, MAX等)联合使用来得到一个或多个列的结果集,having语句通常与group by语句联合使用,用来过滤由group by语句返回的结果集。having语句的存在弥补了WHERE关键字不能与聚合函数联合使用的不足。比如,WHERE COUNT(name)>1就会语法报错。
2.where 条件的查询语句需要再加一层select一个临时表,不然会执行报错:
错误代码: 1093
You can't specify target table 'table_a' for update in FROM clause
如果是需要多字段去重,原理也是一样。