sql 删除重复数据
问题是这样的。今天在一个技术群里,一个群友提了一个问题:
大概是,一张学生表 student,有字段 id (自增), name, 想要删除多余的重复name 的数据,剩下id最小的那条数据。写个sql 删除重复数据,同时要兼顾效率。我问他是什么数据库,他说是面试遇到的一个问题,没说什么数据库,然后我就说写个oracle的给他。
主要是我对其他数据库不熟悉,也不知道是否适用其他数据库。
于是我写了以下sql:
delete from student s where s.id in
(select base.id from (
select t.id, row_number() over(partition by t.name order by t.id) tep
from student t
) base where base.tep > 1)
解释一下:
select t.id, row_number() over(partition by t.name order by t.id) tep from student t
这句是 根据 name 分组,再根据 id排序,获取组内排序的序号或行号。每组排序是独立的,最后这个子查询得到的结果就是 id,name,tep(序号);外层就是查询出行号 大于1 的,肯定就是重复的需要删除的数据了。