- 学习:知识的初次邂逅
- 复习:知识的温故知新
- 练习:知识的实践应用
目录
一,原题力扣链接
二,题干
表:
UserVisits
+-------------+------+ | Column Name | Type | +-------------+------+ | user_id | int | | visit_date | date | +-------------+------+ 该表没有主键,它可能有重复的行 该表包含用户访问某特定零售商的日期日志。假设今天的日期是
'2021-1-1'
。编写解决方案,对于每个
user_id
,求出每次访问及其下一个访问(若该次访问是最后一次,则为今天)之间最大的空档期天数window
。返回结果表,按用户编号
user_id
排序。结果格式如下示例所示:
示例 1:
输入: UserVisits 表: +---------+------------+ | user_id | visit_date | +---------+------------+ | 1 | 2020-11-28 | | 1 | 2020-10-20 | | 1 | 2020-12-3 | | 2 | 2020-10-5 | | 2 | 2020-12-9 | | 3 | 2020-11-11 | +---------+------------+ 输出: +---------+---------------+ | user_id | biggest_window| +---------+---------------+ | 1 | 39 | | 2 | 65 | | 3 | 51 | +---------+---------------+ 解释: 对于第一个用户,问题中的空档期在以下日期之间: - 2020-10-20 至 2020-11-28 ,共计 39 天。 - 2020-11-28 至 2020-12-3 ,共计 5 天。 - 2020-12-3 至 2021-1-1 ,共计 29 天。 由此得出,最大的空档期为 39 天。 对于第二个用户,问题中的空档期在以下日期之间: - 2020-10-5 至 2020-12-9 ,共计 65 天。 - 2020-12-9 至 2021-1-1 ,共计 23 天。 由此得出,最大的空档期为 65 天。 对于第三个用户,问题中的唯一空档期在 2020-11-11 至 2021-1-1 之间,共计 51 天。
三,建表语句
import pandas as pd
data = [[1, '2020-11-28'], [1, '2020-10-20'], [1, '2020-12-03'], [2, '2020-10-05'], [2, '2020-12-09'], [3, '2020-11-11']]
user_visits = pd.DataFrame(data, columns=['user_id', 'visit_date'])
# 使用 pd.to_datetime 转换日期列
user_visits['visit_date'] = pd.to_datetime(user_visits['visit_date'])
# 再将 user_id 列转换为 Int64 类型
user_visits['user_id'] = user_visits['user_id'].astype('Int64')
四,分析
题解:
表:用户登录表
字段: 用户id,登录日期
求用户登录日期中最大的空窗期 如果是最后一次登录就距离2021-01-01的日期
第一步 新增加一列 并且转为时间类型
user_visits['date1']= '2021-01-01' #新增加一列
user_visits['date1'] = pd.to_datetime(user_visits['date1']) #转为时间类型
第二步,去重
user_visits = user_visits.drop_duplicates() #去重
第三步:排序
user_visits['date1']= '2021-01-01' #新增加一列
user_visits['date1'] = pd.to_datetime(user_visits['date1']) #转为时间类型
user_visits = user_visits.drop_duplicates() #去重
user_visits = user_visits.sort_values(by=['user_id', 'visit_date'], ascending=[True, False]) #排序
user_visits
第四步: 开窗 类似sql中lag 用法
user_visits['lo'] = user_visits.groupby('user_id')['visit_date'].shift(1) #实现类似sql中 lag开窗函数的用法
第五步:计算时间差
user_visits['biggest_window'] = user_visits.apply(
lambda x: ( x['date1']-x['visit_date'] ).days if pd.isna(x['lo']) else (x['lo']-x['visit_date'] ).days,
axis=1) #以行开始
第六步,分组求top1
user_visits['rn'] = user_visits.groupby('user_id')['biggest_window'].rank(method='min',ascending=False)
df1 = user_visits[user_visits['rn'] ==1]
第七步:求rn=1的行 映射指定的列
df1 = user_visits[user_visits['rn'] ==1]
df2 = df1[['user_id','biggest_window']]
# df2.info()
df2
五,Pandas解答
import pandas as pd
def biggest_window(user_visits: pd.DataFrame) -> pd.DataFrame:
user_visits['date1']= '2021-01-01' #新增加一列
user_visits['date1'] = pd.to_datetime(user_visits['date1']) #转为时间类型
user_visits = user_visits.drop_duplicates() #去重
user_visits = user_visits.sort_values(by=['user_id', 'visit_date'], ascending=[True, False]) #排序
user_visits['lo'] = user_visits.groupby('user_id')['visit_date'].shift(1) #实现类似sql中 lag开窗函数的用法
def calculate_diff(row):
if pd.isna(row['lo']): #如果是NAN
return ( row['date1']-row['visit_date'] ).days
else:
return (row['lo']-row['visit_date'] ).days
user_visits['biggest_window'] = user_visits.apply(calculate_diff,axis=1) #以行开始
user_visits['rn'] = user_visits.groupby('user_id')['biggest_window'].rank(method='min',ascending=False)
df1 = user_visits[user_visits['rn'] ==1]
df2 = df1[['user_id','biggest_window']]
return df2
六,验证
七,知识点总结
- Pandas 转换事件类型的运用 API: to_datetime
- Pandas去重的运用 API:drop_duplicates
- Pandas多列排序的运用 API:sort_values
- Pandas中类似sql中 lag开窗函数的用法 API groupby....shift(1)
- Pandas中自定义函数的用法 API: apply
- Pandas中类似sql中 rownumber的用法 groupby.....rank...
- Pandas中计算 登陆的空窗期 也就是距离上一次登录多久的题
- 学习:知识的初次邂逅
- 复习:知识的温故知新
- 练习:知识的实践应用