Hive中位数到底是怎么求的？

最新推荐文章于 2024-07-25 23:12:39 发布

得得得个桔

最新推荐文章于 2024-07-25 23:12:39 发布

阅读量191

点赞数 4

分类专栏：数据开发 SQL 文章标签： hive 数据仓库 sql

本文链接：https://blog.csdn.net/degeju/article/details/140530621

版权

数据开发同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

SQL

5 篇文章 0 订阅

订阅专栏

背景引入

实习过程中，接到一个需求，里面有个要计算中位数的字段，之前没见过，遂记录。

愣头青方法

一切的一切数据先排序。
常规不用hive的解决方法是：首先添加两列字段，这两列分别是score所在的位置、总数据个数。然后可以对数据（为位置+1和位置+2）进行平均分，然后用where in进行过滤筛选。这里的逻辑筛选后，可以得到得到一行数据和两行数据（分别对应奇数和偶数，如果是偶数的话，你这样+2然后除2得到是个带小数点的数值，筛选就找不到她了），然后用对筛选出来的数据进行一个avg( )就可以了。

with data1 as (
  select 1 as uid, 65 as score union all
  select 1 as uid, 68 as score union all
  select 1 as uid, 76 as score union all
  select 1 as uid, 95 as score union all
  select 1 as uid, 68 as score union all
  select 1 as uid, 84 as score union all
  select 1 as uid, 79 as score
),
data2 as (
  select * from data1 order by score desc
),
-- 得到分数在对应数列的位置，以及计算出总位数
data3 as (
  select
  uid,
  score,
  row_number() over (partition by uid order by score desc) as score_rnk,
  count(*) over() as total_score_num
  from data2
)
select
    avg(score) as median
from (
  select
  uid,
  score
  from data3
  where score_rnk in ((total_score_num+1)/2, (total_score_num+2)/2)
)a 
group by uid

Hive自带函数

这两个函数都可以用来求中位数（这两个函数其实是用来在p分为上的值）。

percentile( )

这个函数相比下面那个更加精确，但是内存消耗也会偏大计算速率也会较为低下。

展现一样的结果

percentile_approx( )

这一个函数则是得到近似分布的值，相对没那么精确，但是他比较适合大规模数据集，数据仓库ETL中可能用它更加合适。

得得得个桔

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Hive中位数到底是怎么求的？

常规不用hive的解决方法是：首先添加两列字段，这两列分别是score所在的位置、总数据个数。这里的逻辑筛选后，可以得到得到一行数据和两行数据（分别对应奇数和偶数，如果是偶数的话，你这样+2然后除2得到是个带小数点的数值，筛选就找不到她了），然后用对筛选出来的数据进行一个avg( )就可以了。这一个函数则是得到近似分布的值，相对没那么精确，但是他比较适合大规模数据集，数据仓库ETL中可能用它更加合适。实习过程中，接到一个需求，里面有个要计算中位数的字段，之前没见过，遂记录。一切的一切数据先排序。
复制链接

扫一扫

专栏目录