spark DataFrame、SQL 求两行某列的差值

有这样的一个需求:

    有用户看广告的数据,userid、date、timestamp,现在要求每个用户当前观看广告距离上次多长时间。如果我们能计算好每个广告行为距离上次发生该事件的时间差,我们就可以实现,基于频繁刷广告的行为进行反作弊。

     思路:

     先按userid,timestamp进行排序,不能进行groupby(userid).sort()。必须userid在前先排序好(其实就是按用户分组好)。遍历每个Row,并记住上一个Row,这样用当前row的timestamp减去上一个pre row的timestamp就可以啦。

     

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值