最近工作业务上遇到需要去除重复数据,所以了解了一下如何去除某属性相同的数据!
1:查询出重复数据
以用户表user为例,我们需要去除login_name重复的数据,那么我们首先需要查询一下哪些数据是重复的。
sql如下:
SELECT login_name FROM user GROUP BY login_name HAVING COUNT(login_name) > 1
这条语句根据group by 和having count(login_name) 查询出了重复数据的login_name,如果有结果集,那么证明是有重复数据的,该如何去重呢?
2:去除重复数据
思考一下,我们可以根据查询出重复数据的login_name,来确定需要删除的数据的条件,我们可以这样写sql来进行重复数据的删除
DELETE
FROM
`user`
WHERE
login_name IN (
SELECT
login_name
FROM
`user`
GROUP BY
login_name
HAVING
count(login_name) > 1
)
AND id NOT IN (
SELECT
min(id) AS aa
FROM
`user`
GROUP BY
login_name
HAVING
count(login_name) > 1
);
如上所示:查询出当前重复的login_name作为删除条件,但是不能将重复的数据全部删除完,所有我们查询出了重复数据当中的其中一个id,也就是min(id)作为不被删除的条件,当然也可以用max(id);这样我们执行一下;会发现报出了如下错误:
[Err] 1093 - You can't specify target table 'user' for update in FROM clause
这个错误的意思是:不能在同一表中查询的数据作为同一表的更新数据!那么我们可以中转一下,将查询出来的结果映射成一个表,就可以了!
sql 如下:
DELETE
FROM
`user`
WHERE
login_name IN (
SELECT
a.login_name
FROM
(
SELECT
login_name
FROM
`user`
GROUP BY
login_name
HAVING
count(login_name) > 1
) AS a
)
AND id NOT IN (
SELECT
b.aa
FROM
(
SELECT
min(id) AS aa
FROM
`user`
GROUP BY
login_name
HAVING
count(login_name) > 1
) AS b
);
执行该语句,发现执行成功,数据已经成功去重!