postgresql如何查询重复计数及去重查询例子解析

最新推荐文章于 2025-04-05 17:44:54 发布

乔丹搞IT

最新推荐文章于 2025-04-05 17:44:54 发布

阅读量2.1k

点赞数 19

分类专栏： pg 文章标签： postgresql 数据库 pg

CC BY-NC-SA 3.0

本文链接：https://blog.csdn.net/jimn2000/article/details/142693415

版权

pg 专栏收录该内容

109 篇文章

订阅专栏

在这里插入图片描述

代码示例：

在PostgreSQL中查询重复计数及去重查询可以通过多种方法实现。以下是一些详细的例子：

查询重复计数：
使用聚合函数count()配合over()窗口函数可以查询每个元素的重复计数：
```
SELECT id, name, email,
       count(*) OVER (PARTITION BY email) AS cnt
FROM people;
```
这将为people表中的每行显示email字段的重复计数。

基于单个字段的重复记录查询：
可以通过分组统计并且返回行数大于1的分组来查询重复记录：

SELECT at, COUNT(at) 
FROM table2 
GROUP BY at 
HAVING COUNT(at) > 1;

如果想要查看完整的重复数据，可以使用子查询或者连接查询：

SELECT *
FROM table2
WHERE at IN (SELECT at FROM table2 GROUP BY at HAVING COUNT(at) > 1)
ORDER BY at;

或者使用自连接查询和DISTINCT操作符：

SELECT DISTINCT p.*
FROM table2 p
JOIN table2 d ON p.at = d.at
WHERE p.id <> d.id
ORDER BY p.at;

基于多个字段的重复记录查询：
如果想要找出name和email两个字段都重复的数据，可以基于这两个字段进行分组统计：

SELECT *
FROM people
WHERE (name, email) IN (
    SELECT name, email
    FROM people
    GROUP BY name, email
    HAVING COUNT(1) > 1)
ORDER BY email;

使用DISTINCT ON进行去重查询：
DISTINCT ON是PostgreSQL的一个特殊用法，允许指定一个或多个列作为标准去除每个分组的重复行：
```
SELECT DISTINCT ON (column_name) column_name, other_column
FROM table_name
ORDER BY column_name, other_column;
```
这将为每个column_name值返回第一条记录，其他重复的记录将被去除。
使用窗口函数进行去重：
使用ROW_NUMBER()窗口函数可以对数据进行分组，并为每个分组内的数据分配一个唯一的数字编号：
```
SELECT id, name, email,
       ROW_NUMBER() OVER (PARTITION BY email ORDER BY id) AS row_num
FROM people;
```
然后可以基于这个编号去除重复记录。
删除重复记录：
如果要删除重复记录，只保留id最小的一条，可以使用以下查询：
```
DELETE FROM people
WHERE id NOT IN (SELECT MIN(id) FROM people GROUP BY email);
```