大数据SQL面试题每日一题系列:现有用户登录记录表,请查询出用户连续三天登录所有的数据记录

之后会不定期更新每日一题sql系列。

SQL面试题每日一题系列内容均来自于网络以及实际使用情况收集,如与各大厂面试题有雷同,纯属巧合。

1.题目

问题:以下为多个用户每日登录记录数据,已经按照用户登录日期进行了去重处理,求解出每个用户连续三天登录所有的数据记录

此题也和求解用户连续登录n天的次数题目求解方式重合。

2.基础数据准备

基于上一题SQL面试题每日一题-求解用户最长连续登录天数数据源做了一定修正,方便理解。

create table if not exists temp.user_login_log (
  `id` bigint comment '用户id',
  `login_date` string comment '登录日期'
) comment '用户每日登录流水'

数据预览

idlogin_date
12024-04-25
12024-04-26
12024-04-27
12024-04-28
12024-04-30
12024-05-01
12024-05-02
12024-05-04
12024-05-05
22024-04-25
22024-04-28
22024-05-02
22024-05-03
22024-05-04

期望结果

idlogin_date
12024-04-25
12024-04-26
12024-04-27
12024-04-26
12024-04-27
12024-04-28
12024-04-30
12024-05-01
12024-05-02
22024-05-02
22024-05-03
22024-05-04

期望输出结果中会看到用户1有25,26,27日记录,也会有26,27,28日的记录,那么26,27就会出现两次

3.问题分析

求解每个用户连续三天登录的所有数据记录,相较于上一个连续问题,其区别在于需要考虑明细数据的展示,其解决问题的办法就完全不同了。考察的是对日期加减函数的使用以及对偏移量开窗函数的应用

排序开窗函数详见SQL窗口分析函数使用详解系列三之偏移量类窗口函数

期望输出结果中会看到用户1有25,26,27日记录,也会有26,27,28日的记录,那么26,27就会出现两次,原来数据表中只有一次,所以还是得“生成”数据;

维度评分
题目难度⭐️⭐️⭐️⭐️
题目清晰度⭐️⭐️⭐️⭐️
业务常见度⭐️⭐️

4.解题SQL

1.原始数据求偏移值

使用lead()函数按照用户分组,日期排序,求出后面第三行的日期offset_day1,使用date_add()求解出第三天的日期offset_day2

通过两种方式的偏移值是否相等来进行判断是否连续三天登录

select id,login_date
	,lead(login_date,2) over(partition by id order by login_date) as offset_day1
	,date_add(login_date,2) as offset_day2 
from temp.user_login_log
order by id,login_date

数据结果

idlogin_dateoffset_day1offset_day2
12024-04-252024-04-272024-04-27
12024-04-262024-04-282024-04-28
12024-04-272024-04-302024-04-29
12024-04-282024-05-012024-04-30
12024-04-302024-05-022024-05-02
12024-05-012024-05-042024-05-03
12024-05-022024-05-052024-05-04
12024-05-04(null)2024-05-06
12024-05-05(null)2024-05-07
22024-04-252024-05-022024-04-27
22024-04-282024-05-032024-04-30
22024-05-022024-05-042024-05-04
22024-05-03(null)2024-05-05
22024-05-04(null)2024-05-06

清晰的看到偏移窗口函数和日期加减函数的值,之后进行比较。

2.判断是否连续登录

判断当日及之后是否连续三天登录,如果两个偏移值相等则代表为连续登录,否则为非连续登录。

计算出is_cont,然后根据is_cont的标识进行筛选初试连续的日期。比如用户1在25,26,27三天连续登录,筛选出其第一天的日期25。

select id,login_date,offset_day1,offset_day2
	,if(offset_day1 = offset_day2,1,0) as is_cont 
from (
  select id,login_date
    ,lead(login_date,2) over(partition by id order by login_date) as offset_day1
    ,date_add(login_date,2) as offset_day2 
  from temp.user_login_log
) a
order by id,login_date

数据结果

idlogin_dateoffset_day1offset_day2is_cont
12024-04-252024-04-272024-04-271
12024-04-262024-04-282024-04-281
12024-04-272024-04-302024-04-290
12024-04-282024-05-012024-04-300
12024-04-302024-05-022024-05-021
12024-05-012024-05-042024-05-030
12024-05-022024-05-052024-05-040
12024-05-04(null)2024-05-060
12024-05-05(null)2024-05-070
22024-04-252024-05-022024-04-270
22024-04-282024-05-032024-04-300
22024-05-022024-05-042024-05-041
22024-05-03(null)2024-05-050
22024-05-04(null)2024-05-060

可以看出用户1在25号和26号以及30号存在连续登录3天的记录。用户2在05-02存在连续登录三天的记录。

3.筛选连续登录日期

筛选出开始连续登录的日期

select id,login_date,offset_day1,offset_day2
	,if(offset_day1 = offset_day2,1,0) as is_cont 
from (
  select id,login_date,offset_day1,offset_day2
  	,if(offset_day1 = offset_day2,1,0) as is_cont 
  from (
    select id,login_date
      ,lead(login_date,2) over(partition by id order by login_date) as offset_day1
      ,date_add(login_date,2) as offset_day2 
    from temp.user_login_log
  ) a
) b where b.is_cont = 1
order by id,login_date

数据结果

idlogin_dateoffset_day1offset_day2is_cont
12024-04-252024-04-272024-04-271
12024-04-262024-04-282024-04-281
12024-04-302024-05-022024-05-021
22024-05-022024-05-042024-05-041

筛选出来的结果。

至此,这个可以作为另外一个题目:

判断用户连续登录n天的次数。

实际例子,判断用户连续登录三天的次数。用户1为3次,用户2为1次。

4.生成维表

生成一个0,1,2三行记录的数据。

select explode(array(0,1,2)) as date_list;

这里面涉及到了hive的explode爆炸函数

数据结果

date_list
0
1
2

5.得到预期结果

通过3和4步骤的结果表进行笛卡尔积,得到最终结果。

select c.id,c.login_date
	,date_add(c.login_date,d.date_list) as login_date_list 
from (
  select id,login_date,offset_day1,offset_day2
    ,if(offset_day1 = offset_day2,1,0) as is_cont 
  from (
    select id,login_date,offset_day1,offset_day2
      ,if(offset_day1 = offset_day2,1,0) as is_cont 
    from (
      select id,login_date
        ,lead(login_date,2) over(partition by id order by login_date) as offset_day1
        ,date_add(login_date,2) as offset_day2 
      from temp.user_login_log
    ) a
  ) b where b.is_cont = 1
) c
,(
    select explode(array(0,1,2)) as date_list
) d
order by id,login_date_list

数据结果

idlogin_datelogin_date_list
12024-04-252024-04-25
12024-04-252024-04-26
12024-04-252024-04-27
12024-04-262024-04-26
12024-04-262024-04-27
12024-04-262024-04-28
12024-04-302024-04-30
12024-04-302024-05-01
12024-04-302024-05-02
22024-05-022024-05-02
22024-05-022024-05-03
22024-05-022024-05-04

可以看到用户连续登录的记录在login_date_list列完整展现出来了,和预期结果一致。

5.衍生问题解答

如果求解的不是用户连续三天登录所有记录,而是连续登录之外的断点记录呢?

用另一句话说就是用户哪天没有登录的记录

这个需要我们进行维表数据生成以进行数据求解

下期进行完整解答。

以上,本期全部内容。

感谢阅读。

按例,欢迎点击此处关注我的个人公众号,交流更多知识。

  • 6
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鲁边

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值