count(distinct ) over(partition by order by)替换成size(collect_set() over(partition by order by))

最新推荐文章于 2024-08-27 14:19:14 发布

卡奥斯道

最新推荐文章于 2024-08-27 14:19:14 发布

阅读量1.1w

点赞数 3

分类专栏： hive 文章标签： count(distinct ) over(partitio size(collect_set() over(partit 分组内求去重后的数量

本文链接：https://blog.csdn.net/kaaosidao/article/details/82908506

版权

hive 专栏收录该内容

19 篇文章 2 订阅

订阅专栏

这个函数的大致意思是：在分组内求去重后的数量

为什么不用count(distinct )，不支持原因

例子：

数据准备：

SELECT '1' as id ,'201808' as m,'a' as k
union all
SELECT '2' as id ,'201808' as m,'a' as k
union all
SELECT '1' as id ,'201809' as m,'a' as k
union all
SELECT '1' as id ,'201808' as m,'b' as k
union all
SELECT '2' as id ,'201809' as m,'b' as k

id代表人编号,m代表月份，k代表其他key键。

id	m	k
1	201808	a
2	201808	a
1	201809	a
1	201808	b
2	201809	b

需求：本月累计人数（即9月份的客户要包含9月以前的客户数）

预计结果

k m n

a 201808 2

a 201809 2

b 201808 1

b 201809 2

第一步：

SELECT
k,
m,
size(collect_set(id) OVER(PARTITION BY k ORDER BY m asc rows BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW )) as n
from
(
SELECT '1' as id ,'201808' as m,'a' as k
union all
SELECT '2' as id ,'201808' as m,'a' as k
union all
SELECT '1' as id ,'201809' as m,'a' as k
union all
SELECT '1' as id ,'201808' as m,'b' as k
union all
SELECT '2' as id ,'201809' as m,'b' as k
)t
order by k,m

k	m	n
a	201808	1
a	201808	2
a	201809	2
b	201808	1
b	201809	2

第二步：取出分组内最后一条即可

SELECT
k,
m,
n,
row_number() over(PARTITION BY k,m ORDER BY n desc)rk
from
(
SELECT
k,
m,
size(collect_set(id) OVER(PARTITION BY k ORDER BY m asc rows BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW )) as n
from
(
SELECT '1' as id ,'201808' as m,'a' as k
union all
SELECT '2' as id ,'201808' as m,'a' as k
union all
SELECT '1' as id ,'201809' as m,'a' as k
union all
SELECT '1' as id ,'201808' as m,'b' as k
union all
SELECT '2' as id ,'201809' as m,'b' as k
)t
order by k,m
)having rk = 1