(1)需求:
APP每天产生很多用户浏览数据,需要提取用户最近1次访问APP时的信息(也就是取最大的访问时间)
注:已得到全部用户的访问全部数据
(2)解决:
使用Python进行处理,相关代码如下
import pandas as pd
#读取数据
df=pd.read_excel("D:/ChromeDownload/.xlsx")
#先根据用户标识(UDID)分组,再取最大时间记录Date
data = df.groupby('UDID').apply(lambda t: t[(pd.to_datetime(t['Date']))==(pd.to_datetime(t['Date'])).max()])
#最大时间可能存在多条相同记录,则对其去重(如果每个UDID只需1条记录,则进行此步骤)
data1=data.drop_duplicates(['Circuit ID','Supplier'])
#再将梳理后数据保留本地
data1.to_excel("C:/Users/.xlsx")