了解中位数概念
中位数:如果一组数据的个数是奇数,则中位数就是正中间那个数;如果数据的个数是偶数,则中位数通常是中间两个数的平均值。
实际操作时遇到的两种情况
1.选择中位数所对应的的值(偶数时需取两个)
1.1需求分析
在这个需求时,如果数据的个数为偶数并不是两个数的平均值,而是将离中位数最近的两个数据求出,最后得到这两个数据(key)对应的值(value)
实现思路:
1.先对整个表进行排序,如果需要分组,则按照分组列进行分组
2.通过排序可以知道该数据的个数
3.得出数据个数的中间值即中位数
4.因为是偶数时,我们需要取离中位数最近的两个值,所以对数据的个数进行判断
如果为偶数时,需要+1
如果为奇数时,不需要操作
5.如果数据只有一个,再加一个判断
with t1 as (
select distinct *,
# 1.先对整个表进行排序,如果需要分组,则按照分组列进行分组 (窗口函数)
row_number() over (partition by 分组列 order by 排序列+排序条件 ) a
from 表名),
t2 as (
select 分组列, max(a) a1
# 2.通过排序可以知道该数据的个数
from t1
group by 分组列),
t3 as (
select *,
round(a1 / 2) a2,
#3.得出数据个数的中间值即中位数
if(a1 % 2 = 0, 1, 0) a3,
#4.因为是偶数时,我们需要取离中位数最近的两个值,所以对数据的个数进行判断
##如果为偶数时,需要+1 如果为奇数时,不需要操作
if(a1 = 1, 1, 0) a4
#5.如果数据只有一个,再加一个判断 如果只有一个时,则+1
from t2)
select id, t1.company, salary
from t1
join t3 on t1.分组列 = t3.分组列
where a = a2
or a = a2 + a3 + a4;
1.2.代码实现
2.选择中位数的值(奇数、偶数都取中间值)
1.1需求分析
如果一组数据的个数是奇数,则中位数就是正中间那个数;如果数据的个数是偶数,则中位数通常是中间两个数的平均值。
这个需求属于标准的中位数概念,只需要求出中间值进行计算即可
1.2代码实现
with t1 as (
select distinct *,
# 1.先对整个表进行排序,如果需要分组,则按照分组列进行分组 (窗口函数)
row_number() over (partition by 分组列 order by 排序列+排序条件 ) a
from 表名),
select
分组列,
round(max(a)/2,0) a1
# 2.通过排序可以知道该数据的个数,直接计算得出需要的中位数值
from t1
group by 分组列