Hive Sql完成过滤每组累积去重数低于某值计算

实现限制组内截止数量

需求概述

近期公司开发某项学习功能,改功能有很多学习内容(如java,C,python等方向),每天都会有众多学习用户学习某一项或者多项学习内容。产生数据如下表:

日期内容学习用户
2022-01-01javau1
2022-01-02javau1
2022-01-02javau2
2022-01-01Cu1
2022-01-01Cu3
2022-01-01Pythonu4
2022-01-02Pythonu4
2022-01-02Pythonu5
2022-01-02Pythonu6

期望数据

现在想要计算截止每天每个学习内容的截止去重学习用户数,但是截止去重用户数小于等于1的要被过滤,期望数据如下:

日期内容去重截止学习用户数
2022-01-02java2
2022-01-01C2
2022-01-02Python3

截止到2022-01-01,学习内容java的为去重用户数为1,学习内容C的为去重用户数为2,学习内容Python的为去重用户数为1。所以2022-01-01学习内容为java和python的都要内过滤。

基本思路

将所有天数和学习种类去重后作为临时表b,将明细表作为表a,a表内关联b表,关联条件为a的pdate要小于等于b的pdate并且学习内容一致,这样每个学习种类的截止到每天的学习用户数就取出了。再分组求和,having过滤组内数量即可。

逻辑实现

with tmp as ( -- 基础数据
select '2022-01-01' as pdate,'java' as icate, 'u1' as user
union all 
select '2022-01-02' as pdate,'java' as icate, 'u1' as user
union all 
select '2022-01-02' as pdate,'java' as icate, 'u2' as user
union all 
select '2022-01-01' as pdate,'C' as icate, 'u1' as user
union all 
select '2022-01-01' as pdate,'C' as icate, 'u3' as user
union all 
select '2022-01-01' as pdate,'Python' as icate, 'u4' as user
union all 
select '2022-01-02' as pdate,'Python' as icate, 'u4' as user
union all 
select '2022-01-02' as pdate,'Python' as icate, 'u5' as user
union all 
select '2022-01-02' as pdate,'Python' as icate, 'u6' as user
),
tmp1 as (
select distinct pdate,icate from tmp
)
select
    a.pdate,a.icate,count(distinct a.user) as icount
from 
    tmp a 
join 
    tmp1 b
on 
    a.pdate <= b.pdate 
and 
    a.icate = b.icate
group by 
    a.pdate,a.icate
having 
    icount > 1;
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

@nanami

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值