Spark core 计算连续登录天数、连续使用次数、连续xxx的案例实操

本文通过案例详细介绍了如何使用Spark Core处理数据,计算用户连续登录的天数和次数。首先对数据按用户分组并排序,接着计算连续天数,然后分组统计次数,从而找出最大连续登录记录。最后提供了实现这一过程的代码示例。
摘要由CSDN通过智能技术生成

1、给出以下数据,计算用户连续登录的天数,数据格式为:用户,登录日期

user001,2020-03-14
user002,2020-03-13
user001,2020-03-19
user001,2020-03-18
user002,2020-03-12
user001,2020-03-20
user002,2020-03-17
user001,2020-03-10
user002,2020-03-14
user001,2020-03-15
user002,2020-03-15

思路解析:

首先:由于需要计算用户的连续登录天数,先按照用户进行分组计算,得到如下的数据:

user001,2020-03-14
user001,2020-03-19
user001,2020-03-18
user001,2020-03-20
user001,2020-03-15
user001,2020-03-10
user002,2020-03-12
user002,2020-03-17
user002,2020-03-14
user002,2020-03-15
user002,2020-03-13

在对日期进行排序,按照小到大排序,得到如下数据:

user001,2020-03-10
user001,2020-03-14
user001,2020-03-15
user001,2020-03-18
user001,2020-03-19
user001,2020-03-20


user002,2020-03-12
user002,2020-03-13
user002,2020-03-14
user002,2020-03-15
user002,2020-03-17

进行连续天数的计算,由于已经排好序。在每一个分组里面的第一条数据-0 如图:

user001,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值