SQL进阶技巧:如何实现多指标累计去重?

135 篇文章 20 订阅 ¥29.90 ¥99.00
本文介绍如何使用HiveSQL处理多指标累计去重问题,通过实例展示了利用窗口函数解决此类需求的步骤,包括按天去重、开窗计算累计值,并讨论了不同Hive版本对window函数的支持情况。
摘要由CSDN通过智能技术生成

目录

0 需求

1 数据准备

2 数据分析

3 小结


0 需求

假设表A 为事件流水表,客户当天有一条记录则视为当天活跃。
表A:
time_id                       user_id
2018-01-01 10:00:00 001
2018-01-01 11:03:00 002
2018-01-01 13:18:00 001
2018-01-02 08:34:00 004
2018-01-02 10:08:00 002
2018-01-02 10:40:00 003
2018-01-02 14:21:00 002
2018-01-02 15:39:00 004
2018-01-03 08:34:00 005
2018-01-03 10:08:00 003
2018-01-03 10:40:00 001
2018-01-03 14:21:00 005
假设客户活跃非常,一天产生的事件记录平均达千条。

问题:累计去重
输出结果如下所示:
日期当日活跃人数,月累计活跃人数_截至当日

date_id    user_cnt_act user_cnt_act_month
2018-01-01 2             2
2
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值