SQL数据去重复 Distinct 和 row_number() over()

-小龙人

已于 2023-12-04 21:17:51 修改

阅读量1.7w

点赞数 17

分类专栏： # SQL Server 文章标签： SQL SQL去重复

于 2018-11-17 15:19:42 首次发布

本文链接：https://blog.csdn.net/qq_36330228/article/details/84174817

版权

SQL Server 专栏收录该内容

29 篇文章 17 订阅

订阅专栏

Distinct：查询结果中，去掉了重复的行
1.语法:
SELECT Distinct列名称 FROM 表名称;
Distinct 必须放在Select搜索字段的最前面，否则SQL语句会报语法错误。

2.示例:

2.1简单建立一个表，填入数据，执行SQL： Select * From [BlogDemo].[dbo].[People]，结果如下:
2.2 单独查询Name字段，执行SQL：Select Name From [BlogDemo].[dbo].[People]，结果如下:
2.3 上面查询结果的Name中"李丽"出现了3次，可以使用Distinct 关键字去重复，执行SQL：Select distinct Name From [BlogDemo].[dbo].[People]，结果如下:
2.4 上面查询结果中可以看到，Distinct 关键字去重复的作用实现了。如果在去重复Name的需求下还需要查询其他所有字段，会出现什么结果，执行SQL：Select distinct Name,Age,Address From [BlogDemo].[dbo].[People]，结果如下:
2.5 可以看到Distinct 关键字去重复作用并没有什么卵用，当 Distinct 作用在多个字段的时候，它只会将所有字段值都相同的记录“去重”掉，下面验证下，在表中在插入一条数据，如下:
2.6 新插入数据第8条和第1条数据内容完全相同，再次执行SQL：Select distinct Name,Age,Address From [BlogDemo].[dbo].[People]，结果如下:
2.7 可以看到第8条数据被去重了，所以：当 Distinct 作用在多个字段的时候，它只会将所有字段值都相同的记录“去重”掉。在我们实际开发中，表中可能含有多条拥有相同某个字段的记录，如同示例中的Name字段，如果我们只需要相同Name的一个数据怎么办呢？

row_number() over() 函数：对结果集的输出进行编号。返回结果集分区内行的序列号，每个分区的第一行从 1 开始
1.语法：

ROW_NUMBER ( )   OVER ( [ PARTITION BY value_expression , ... [ n ] ] order_by_clause )

2.参数:
PARTITION BY value_expression:将 FROM 子句生成的结果集划分为应用 ROW_NUMBER 函数的分区。 value_expression 指定对结果集进行分区所依据的列。如果未指定 PARTITION BY，则此函数将查询结果集的所有行视为单个组。 (PARTITION BY作用相似Group By 分组的效果) 。
order_by_clause:ORDER BY 子句可确定在特定分区中为行分配唯一 ROW_NUMBER 的顺序。它是必需的。

3.示例:

3.1 依旧使用上面的People表，先不加PARTITION BY分组的效果，执行SQL：Select *,ROW_NUMBER() OVER(Order By Id) as row From [BlogDemo].[dbo].[People]，可以看到查询的结果集有8组，最后一列加入了row字段标识，结果如下：
3.2 加入PARTITION BY分组的效果，执行SQL：Select *,ROW_NUMBER() OVER(Partition By Name Order By Id) as row From [BlogDemo].[dbo].[People]，可以看到这次结果集只有4组，Name为"李丽"全部被标识为4组，结果如下：
3.3 如果我们只取Name字段相同数据的一组，只要加一个筛选条件分组row为1即可，执行SQL：Select * From (Select *,ROW_NUMBER() OVER(Partition By Name Order By Id) as row From [BlogDemo].[dbo].[People]) p Where p.row=1，这时候结果集中Name不会出现相同的数据了，结果如下：

总结：
Distinct 和 row_number() over() 都有将数据去重复的作用，但Distinct 只能作用于单个字段查询结果集去重复，若针对多个字段查询的结果集去重复，需要所有字段都重复才可以去重复。row_number() over() 函数具有分组效果，无论是对于单字段还是多字段查询结果集去重复都可以做到。