13,Python数分之Pandas训练,1709. 访问日期之间最大的空档期

  • 学习:知识的初次邂逅
  • 复习:知识的温故知新
  • 练习:知识的实践应用

目录

一,原题力扣链接

二,题干

三,建表语句

四,分析

五,Pandas解答

六,验证

七,知识点总结


一,原题力扣链接

. - 力扣(LeetCode)

二,题干

表: UserVisits

+-------------+------+
| Column Name | Type |
+-------------+------+
| user_id     | int  |
| visit_date  | date |
+-------------+------+
该表没有主键,它可能有重复的行
该表包含用户访问某特定零售商的日期日志。

假设今天的日期是 '2021-1-1' 。

编写解决方案,对于每个 user_id ,求出每次访问及其下一个访问(若该次访问是最后一次,则为今天)之间最大的空档期天数 window 。

返回结果表,按用户编号 user_id 排序。

结果格式如下示例所示:

示例 1:

输入:
UserVisits 表:
+---------+------------+
| user_id | visit_date |
+---------+------------+
| 1       | 2020-11-28 |
| 1       | 2020-10-20 |
| 1       | 2020-12-3  |
| 2       | 2020-10-5  |
| 2       | 2020-12-9  |
| 3       | 2020-11-11 |
+---------+------------+
输出:
+---------+---------------+
| user_id | biggest_window|
+---------+---------------+
| 1       | 39            |
| 2       | 65            |
| 3       | 51            |
+---------+---------------+
解释:
对于第一个用户,问题中的空档期在以下日期之间:
    - 2020-10-20 至 2020-11-28 ,共计 39 天。
    - 2020-11-28 至 2020-12-3 ,共计 5 天。
    - 2020-12-3 至 2021-1-1 ,共计 29 天。
由此得出,最大的空档期为 39 天。
对于第二个用户,问题中的空档期在以下日期之间:
    - 2020-10-5 至 2020-12-9 ,共计 65 天。
    - 2020-12-9 至 2021-1-1 ,共计 23 天。
由此得出,最大的空档期为 65 天。
对于第三个用户,问题中的唯一空档期在 2020-11-11 至 2021-1-1 之间,共计 51 天。

三,建表语句

import pandas as pd

data = [[1, '2020-11-28'], [1, '2020-10-20'], [1, '2020-12-03'], [2, '2020-10-05'], [2, '2020-12-09'], [3, '2020-11-11']]
user_visits = pd.DataFrame(data, columns=['user_id', 'visit_date'])

# 使用 pd.to_datetime 转换日期列
user_visits['visit_date'] = pd.to_datetime(user_visits['visit_date'])

# 再将 user_id 列转换为 Int64 类型
user_visits['user_id'] = user_visits['user_id'].astype('Int64')

四,分析

题解:

表:用户登录表

字段: 用户id,登录日期

求用户登录日期中最大的空窗期  如果是最后一次登录就距离2021-01-01的日期

第一步 新增加一列 并且转为时间类型

user_visits['date1']= '2021-01-01'  #新增加一列
user_visits['date1'] = pd.to_datetime(user_visits['date1'])  #转为时间类型

 第二步,去重

user_visits = user_visits.drop_duplicates() #去重 

第三步:排序

user_visits['date1']= '2021-01-01'  #新增加一列
user_visits['date1'] = pd.to_datetime(user_visits['date1'])  #转为时间类型
user_visits = user_visits.drop_duplicates() #去重 
user_visits = user_visits.sort_values(by=['user_id', 'visit_date'], ascending=[True, False]) #排序
user_visits

第四步: 开窗 类似sql中lag 用法

user_visits['lo'] = user_visits.groupby('user_id')['visit_date'].shift(1)  #实现类似sql中 lag开窗函数的用法

第五步:计算时间差

user_visits['biggest_window'] = user_visits.apply(
    lambda x: ( x['date1']-x['visit_date'] ).days if pd.isna(x['lo']) else (x['lo']-x['visit_date']  ).days,
    axis=1)  #以行开始

 

第六步,分组求top1

user_visits['rn'] = user_visits.groupby('user_id')['biggest_window'].rank(method='min',ascending=False)
df1 = user_visits[user_visits['rn'] ==1]

 

 第七步:求rn=1的行 映射指定的列

df1 = user_visits[user_visits['rn'] ==1]
df2 = df1[['user_id','biggest_window']]
# df2.info()
df2

五,Pandas解答

import pandas as pd

def biggest_window(user_visits: pd.DataFrame) -> pd.DataFrame:
    user_visits['date1']= '2021-01-01'  #新增加一列
    user_visits['date1'] = pd.to_datetime(user_visits['date1'])  #转为时间类型
    user_visits = user_visits.drop_duplicates() #去重 
    user_visits = user_visits.sort_values(by=['user_id', 'visit_date'], ascending=[True, False]) #排序
    user_visits['lo'] = user_visits.groupby('user_id')['visit_date'].shift(1)  #实现类似sql中 lag开窗函数的用法
    def calculate_diff(row):
        if pd.isna(row['lo']):  #如果是NAN
            return ( row['date1']-row['visit_date'] ).days
        else:
            return (row['lo']-row['visit_date']  ).days 
    user_visits['biggest_window'] = user_visits.apply(calculate_diff,axis=1)  #以行开始
    user_visits['rn'] = user_visits.groupby('user_id')['biggest_window'].rank(method='min',ascending=False)
    df1 = user_visits[user_visits['rn'] ==1]
    df2 = df1[['user_id','biggest_window']]
    return df2

六,验证

七,知识点总结

  • Pandas 转换事件类型的运用 API: to_datetime
  • Pandas去重的运用   API:drop_duplicates
  • Pandas多列排序的运用 API:sort_values
  • Pandas中类似sql中 lag开窗函数的用法 API groupby....shift(1)
  • Pandas中自定义函数的用法 API: apply
  • Pandas中类似sql中 rownumber的用法 groupby.....rank...
  • Pandas中计算 登陆的空窗期 也就是距离上一次登录多久的题 

  • 学习:知识的初次邂逅
  • 复习:知识的温故知新
  • 练习:知识的实践应用
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值