SQL小技巧5:数据去重的N种方法,总有一种你想不到!

在平时工作中,使用SQL语句进行数据去重的场景非常多。

今天主要分享几种数据去重的SQL写法。

假如有一张student表,结构如下:

create table student(    id int,    name varchar(50),    age int,    address varchar(100));

表中的数据如下:

图片

方法一:使用DISTINCT关键字进行去重

在使用DISTINCT关键字去重时,后面跟上去重的字段即可。

比如,取出student表中,不重复的address有哪些,可以使用如下SQL语句:

select distinct address from student;

返回结果如下:

图片

这种方法,最大的优点是使用起来比较简单。

但也有一个比较大的缺点,就是最终返回的结果集中的字段最多只包含去重的字段。也就是说,在上面的SQL语句中,使用address字段进行去重,最终的结果,也最多只能返回address一个字段。

如果想以address字段去重,并且同时返回其他字段,DISTINCT是做不到的。

方法二:使用GROUP BY关键字进行去重

与DISTINCT关键字一样,GROUP BY关键字,也是标准SQL支持的常用的去重方法。它可以在去重的同时,同步返回其他字段的信息。

还是以对address字段进行去重为例,其他字段可以使用聚合函数根据需要进行获取:

select min(id),    max(name),    max(age),    addressfrom student group by address;

返回结果如下:

图片

在上面的语句中,不仅对address字段进行了去重,也同时返回了id、name、age字段的信息。

在这一点上,比DISTINCT要好用很多。

不过,仔细一看,好像总是觉得哪里不对劲。

id=1的学生,应该叫周俊廷,而在上面的返回结果中却是杨萧语,返回的age字段,也有同样的问题。

也就是说,在返回的结果中,同一行的id、name、age,可能并不是同一个学生的,这就导致看起来数据有些混乱。

如果对数据的一致性有要求,可以使用下面的第三种方法。

方法三:使用窗口函数进行去重

窗口函数有好几种,使用起来大同小异,这里只介绍ROW_NUMBER() over(partition by ... order by ...)。

select    id,name,age,addressfrom (    select id,name,age,address,        row_number() over(            partition by address             order by id asc        ) as rn    from student)awhere a.rn = 1;

ROW_NUMBER()窗口函数的原理是,先对数据按照partition by的字段进行分组,然后以order by的字段在各个分组内进行排序,序号从1开始递增。

上面的SQL返回的结果为:

图片

这个返回结果,就完美多了。

但是,需要注意的是,有些数据库是不支持窗口函数的。像低版本的MySQL数据库中就无法使用。

方法四:使用IN去重

这种方法的关键在于,找到一组不重复的数据的特征,然后以这个特征来取数据。

比如:按address来去重,如果数据有重复,取id最大的那条。

select * from studentwhere id in (    select max(id)     from student     group by address);

返回结果如下:

图片

当然,也可以取id最小的那条,将上面语句中的max改成min就可以了。

这种方法适合表里有一个数据不重复的字段(如上面SQL中的id字段)的情况。

如果表中不存在这样一个字段,这种方法就不再适用了。但有些数据库,天生自带了类似的字段可以使用。

比如,在ORACLE数据库中,可以使用ROWID替代上面SQL中的id字段。当然仅限于ORACLE数据库:

select * from studentwhere rowid in (    select max(rowid)     from student     group by address);

方法五:使用NOT EXISTS去重

与方法四的思路类似,使用NOT EXISTS也可以实现同样的效果。

select *from student awhere not exists(    select 1     from student b     where a.address = b.address       and a.id > b.id);

返回结果如下:

图片

方法六:使用ALL关键字

在MySQL数据库中,有一个特殊的操作符ALL,这是一个集合操作符,表示子数据集中的所有数据都满足某一个条件。

select *from student awhere a.id <= ALL(    select b.id    from student b    where a.address = b.address);

返回结果如下:

图片

在上面的SQL中,ALL操作符的意思是说,a.id字段要<=ALL操作符括号里查询出来的所有值。

这种方法的核心思路与方法四是类似的。

方法七:使用INNER JOIN + GROUP BY关键字

这种方法的核心思路,也与方法四是类似的。

select    a.*from student ainner join student bon a.address = b.addressand a.id >= b.idgroup by a.id,a.name,a.age,a.addresshaving count(*)=1;

返回结果如下:

图片

上面介绍了7种数据去重的方法,你知道几种?

【关注微信公众号:跟强哥学SQL,回复“笔试”免费领取大厂SQL笔试题。】

  • 24
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: SQL去重的几方法通常包括:DISTINCT关键字、GROUP BY 子句、使用EXISTS运算符和使用 NOT IN 运算符。DISTINCT关键字用来查询不重复的记录,GROUP BY子句用来把具有相同数据的记录分组,使用EXISTS运算符可以查询满足特定条件的记录,而使用NOT IN运算符可以查询不满足特定条件的记录。这些方法都可以用来去除SQL中的重复记录,但是它们有不同的使用方式以及效率。 ### 回答2: SQL去重有两方法。 第一种方法是使用DISTINCT关键字。在SELECT语句中,在需要去重字段前加上DISTINCT关键字,即可去除重复的结果。例如,SELECT DISTINCT name FROM table; 这将返回一个没有重复name的结果集。 第二方法是使用GROUP BY子句。在SELECT语句中,使用GROUP BY子句将结果集按照某个字段进行分组,然后再使用聚合函数进行计算。这方法也可以实现去重的效果。例如,SELECT name FROM table GROUP BY name; 这将返回一个根据name字段分组的结果集,其中每个组只有一个name值。 这两方法的区别主要体现在使用场景和性能方面。DISTINCT关键字适用于简单的去重需求,语法简单,但对于大规模数据集的处理会比较慢。而使用GROUP BY子句可以更灵活地进行分组和计算,适用于需要进行复杂聚合操作的场景,但对于需要去重字段较多时,语法相对复杂,也可能会影响性能。 因此,在实际使用中,需要根据具体需求选择合适的去重方法。对于简单的去重需求,使用DISTINCT关键字更加方便快捷;而对于需要进行分组和聚合计算的场景,使用GROUP BY子句可以更好地满足需求。 ### 回答3: SQL去重有两方法,分别是使用DISTINCT关键字和使用GROUP BY子句。 1. 使用DISTINCT关键字:可以在SELECT语句中使用DISTINCT关键字来去除重复的记录。它会返回唯一的记录,去除所有重复的行。例如,SELECT DISTINCT column_name FROM table_name。 2. 使用GROUP BY子句:可以根据一列或多列对结果进行分组,并通过聚合函数对每个组进行计算。在使用GROUP BY时,可以通过对每个分组计算COUNT函数来实现去重。例如,SELECT column_name, COUNT(*) FROM table_name GROUP BY column_name。 这两方法的区别在于: - DISTINCT关键字适用于简单的去重,可以通过指定需要去重的列来去除重复的行。它返回的是唯一的记录,不进行聚合计算。 - GROUP BY子句适用于复杂的情况,可以根据多个列对结果进行分组。可以通过聚合函数进行计算,例如COUNT、SUM等。它返回的是每个分组的计算结果。 总的来说,DISTINCT关键字适用于简单的去重操作,而GROUP BY子句适用于需要进行分组计算的复杂情况。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值