有这样的一个需求:
有用户看广告的数据,userid、date、timestamp,现在要求每个用户当前观看广告距离上次多长时间。如果我们能计算好每个广告行为距离上次发生该事件的时间差,我们就可以实现,基于频繁刷广告的行为进行反作弊。
思路:
先按userid,timestamp进行排序,不能进行groupby(userid).sort()。必须userid在前先排序好(其实就是按用户分组好)。遍历每个Row,并记住上一个Row,这样用当前row的timestamp减去上一个pre row的timestamp就可以啦。