SQL中去重的三种方式

SQL去重是数据分析工作中比较常见的一个场景;
在 MySQL 中通常是使用 distinct 或 group by子句,但在支持窗口函数的 sql(如Hive SQL、Oracle等等) 中还可以使用 row_number 窗口函数进行去重。

在这里插入图片描述

需求: 统计 emp表中的员工数据中共有多少个部门 ?

1. distinct

select count(DISTINCT deptno ) from emp;

distinct 通常效率较低。它不适合用来展示去重后具体的值,一般与 count 配合用来计算条数。

注: distinct前面不能再有其他字段! 
错误用法SELECT ename , DISTINCT deptno FROM emp;

2. group by

select count(deptno) from 
(select deptno from emp group by deptno)q;

3. row_number

使用ROW_NUMBER 记录每个partition内的排序,再用sum 记录排序中为1的,即为deptno的数量’

select sum( if(r =1,1,0) ) from 
( select row_number() over(partition by deptno)as r from emp)q;

或者

 select sum( case when r=1 then 1 else 0 end ) from 
 ( select row_number() over(partition by deptno )as r from emp)q;

参考:https://blog.csdn.net/xienan_ds_zj/article/details/103869048

SQL 中,常见的去方式有以下几种: - **DISTINCT 关键字**:用于返回唯一不同的值,一般放在查询语句中的第一个字段前使用,会将 NULL 值也看做成一个不同的值。它会对后面所有的字段的值统一进行去。例如,要获取员工表中所有不复的员工薪资和年龄的组合,可编写 SQL:`SELECT DISTINCT age,salary FROM Employee` [^2]。 - **GROUP BY 子句**:也能达到去效果,并且还可以实现聚合的效果,可联合聚合函数一起使用。例如获取员工表中每个部门的最高工资的人,可通过连表或条件判断实现。连表方式: ```sql SELECT e.department_id, e.name, e.salary FROM Employee e JOIN ( SELECT department_id, MAX(salary) AS max_salary FROM Employee GROUP BY department_id ) AS max_salaries ON e.department_id = max_salaries.department_id AND e.salary = max_salaries.max_salary; ``` 条件判断方式: ```sql SELECT e.department_id, e.name, e.salary FROM Employee e WHERE EXISTS ( SELECT 1 FROM ( SELECT department_id, MAX(salary) AS salary FROM Employee GROUP BY department_id ) AS m WHERE m.department_id = e.department_id AND m.salary = e.salary ); ``` [^2] - **ROW_NUMBER 窗口函数**:在支持窗口函数的 SQL(如 Hive SQL、Oracle 等)中可使用。例如在 Flink SQL 中对数据按 `id` 去,并计算每个 `id` 的 `data` 总和: ```sql select id,sum(data) as sum_data from ( SELECT id,type,cast(data as int) as data FROM ( SELECT *, ROW_NUMBER() OVER (PARTITION BY id ORDER BY proctime ASC) AS row_num FROM `my_hive`.`dl_test`.`a3` ) WHERE row_num = 1 ) t group by id ; ``` [^1][^4] - **唯一索引限制**:可以创建一个唯一索引,用来在源头上控制复数据的插入。例如,为员工表的 `age` 和 `salary` 字段创建唯一索引:`CREATE UNIQUE INDEX index_name ON Employee(age,salary)` [^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值