13，Python数分之Pandas训练，1709. 访问日期之间最大的空档期

凡梦_leo

于 2024-09-23 22:26:20 发布

阅读量745

点赞数 24

分类专栏：数分之Pandas实战训练文章标签： leetcode sql python pandas flask django pip

本文链接：https://blog.csdn.net/qq_55006020/article/details/142469925

版权

数分之Pandas实战训练专栏收录该内容

32 篇文章 0 订阅

订阅专栏

学习：知识的初次邂逅
复习：知识的温故知新
练习：知识的实践应用

一，原题力扣链接

. - 力扣（LeetCode）

二，题干

表： UserVisits

+-------------+------+
| Column Name | Type |
+-------------+------+
| user_id     | int  |
| visit_date  | date |
+-------------+------+
该表没有主键，它可能有重复的行
该表包含用户访问某特定零售商的日期日志。

假设今天的日期是 '2021-1-1' 。

编写解决方案，对于每个 user_id ，求出每次访问及其下一个访问（若该次访问是最后一次，则为今天）之间最大的空档期天数 window 。

返回结果表，按用户编号 user_id 排序。

结果格式如下示例所示：

示例 1：

输入：
UserVisits 表：
+---------+------------+
| user_id | visit_date |
+---------+------------+
| 1       | 2020-11-28 |
| 1       | 2020-10-20 |
| 1       | 2020-12-3  |
| 2       | 2020-10-5  |
| 2       | 2020-12-9  |
| 3       | 2020-11-11 |
+---------+------------+
输出：
+---------+---------------+
| user_id | biggest_window|
+---------+---------------+
| 1       | 39            |
| 2       | 65            |
| 3       | 51            |
+---------+---------------+
解释：
对于第一个用户，问题中的空档期在以下日期之间：
    - 2020-10-20 至 2020-11-28 ，共计 39 天。
    - 2020-11-28 至 2020-12-3 ，共计 5 天。
    - 2020-12-3 至 2021-1-1 ，共计 29 天。
由此得出，最大的空档期为 39 天。
对于第二个用户，问题中的空档期在以下日期之间：
    - 2020-10-5 至 2020-12-9 ，共计 65 天。
    - 2020-12-9 至 2021-1-1 ，共计 23 天。
由此得出，最大的空档期为 65 天。
对于第三个用户，问题中的唯一空档期在 2020-11-11 至 2021-1-1 之间，共计 51 天。

三，建表语句

import pandas as pd

data = [[1, '2020-11-28'], [1, '2020-10-20'], [1, '2020-12-03'], [2, '2020-10-05'], [2, '2020-12-09'], [3, '2020-11-11']]
user_visits = pd.DataFrame(data, columns=['user_id', 'visit_date'])

# 使用 pd.to_datetime 转换日期列
user_visits['visit_date'] = pd.to_datetime(user_visits['visit_date'])

# 再将 user_id 列转换为 Int64 类型
user_visits['user_id'] = user_visits['user_id'].astype('Int64')

四，分析

题解:

表:用户登录表

字段: 用户id,登录日期

求用户登录日期中最大的空窗期如果是最后一次登录就距离2021-01-01的日期

第一步新增加一列并且转为时间类型

user_visits['date1']= '2021-01-01'  #新增加一列
user_visits['date1'] = pd.to_datetime(user_visits['date1'])  #转为时间类型

第二步,去重

user_visits = user_visits.drop_duplicates() #去重

第三步:排序

user_visits['date1']= '2021-01-01'  #新增加一列
user_visits['date1'] = pd.to_datetime(user_visits['date1'])  #转为时间类型
user_visits = user_visits.drop_duplicates() #去重 
user_visits = user_visits.sort_values(by=['user_id', 'visit_date'], ascending=[True, False]) #排序
user_visits

第四步: 开窗类似sql中lag 用法

user_visits['lo'] = user_visits.groupby('user_id')['visit_date'].shift(1)  #实现类似sql中 lag开窗函数的用法

第五步:计算时间差

user_visits['biggest_window'] = user_visits.apply(
    lambda x: ( x['date1']-x['visit_date'] ).days if pd.isna(x['lo']) else (x['lo']-x['visit_date']  ).days,
    axis=1)  #以行开始

第六步,分组求top1

user_visits['rn'] = user_visits.groupby('user_id')['biggest_window'].rank(method='min',ascending=False)
df1 = user_visits[user_visits['rn'] ==1]

第七步:求rn=1的行映射指定的列

df1 = user_visits[user_visits['rn'] ==1]
df2 = df1[['user_id','biggest_window']]
# df2.info()
df2

五，Pandas解答

import pandas as pd

def biggest_window(user_visits: pd.DataFrame) -> pd.DataFrame:
    user_visits['date1']= '2021-01-01'  #新增加一列
    user_visits['date1'] = pd.to_datetime(user_visits['date1'])  #转为时间类型
    user_visits = user_visits.drop_duplicates() #去重 
    user_visits = user_visits.sort_values(by=['user_id', 'visit_date'], ascending=[True, False]) #排序
    user_visits['lo'] = user_visits.groupby('user_id')['visit_date'].shift(1)  #实现类似sql中 lag开窗函数的用法
    def calculate_diff(row):
        if pd.isna(row['lo']):  #如果是NAN
            return ( row['date1']-row['visit_date'] ).days
        else:
            return (row['lo']-row['visit_date']  ).days 
    user_visits['biggest_window'] = user_visits.apply(calculate_diff,axis=1)  #以行开始
    user_visits['rn'] = user_visits.groupby('user_id')['biggest_window'].rank(method='min',ascending=False)
    df1 = user_visits[user_visits['rn'] ==1]
    df2 = df1[['user_id','biggest_window']]
    return df2

六，验证

七，知识点总结

Pandas 转换事件类型的运用 API: to_datetime
Pandas去重的运用 API:drop_duplicates
Pandas多列排序的运用 API:sort_values
Pandas中类似sql中 lag开窗函数的用法 API groupby....shift(1)
Pandas中自定义函数的用法 API: apply
Pandas中类似sql中 rownumber的用法 groupby.....rank...
Pandas中计算登陆的空窗期也就是距离上一次登录多久的题