25,【连续问题的困难题】Python数分之Pandas训练,力扣,601. 体育馆的人流量

  • 学习:知识的初次邂逅
  • 复习:知识的温故知新
  • 练习:知识的实践应用

目录

一,原题力扣链接

二,题干

三,建表语句

四,分析

五,Pandas解答

六,验证

七,知识点总结


一,原题力扣链接

. - 力扣(LeetCode)

二,题干

表:Stadium

+---------------+---------+
| Column Name   | Type    |
+---------------+---------+
| id            | int     |
| visit_date    | date    |
| people        | int     |
+---------------+---------+
visit_date 是该表中具有唯一值的列。
每日人流量信息被记录在这三列信息中:序号 (id)、日期 (visit_date)、 人流量 (people)
每天只有一行记录,日期随着 id 的增加而增加

编写解决方案找出每行的人数大于或等于 100 且 id 连续的三行或更多行记录。

返回按 visit_date 升序排列 的结果表。

查询结果格式如下所示。

示例 1:

输入:
Stadium 表:
+------+------------+-----------+
| id   | visit_date | people    |
+------+------------+-----------+
| 1    | 2017-01-01 | 10        |
| 2    | 2017-01-02 | 109       |
| 3    | 2017-01-03 | 150       |
| 4    | 2017-01-04 | 99        |
| 5    | 2017-01-05 | 145       |
| 6    | 2017-01-06 | 1455      |
| 7    | 2017-01-07 | 199       |
| 8    | 2017-01-09 | 188       |
+------+------------+-----------+
输出:
+------+------------+-----------+
| id   | visit_date | people    |
+------+------------+-----------+
| 5    | 2017-01-05 | 145       |
| 6    | 2017-01-06 | 1455      |
| 7    | 2017-01-07 | 199       |
| 8    | 2017-01-09 | 188       |
+------+------------+-----------+
解释:
id 为 5、6、7、8 的四行 id 连续,并且每行都有 >= 100 的人数记录。
请注意,即使第 7 行和第 8 行的 visit_date 不是连续的,输出也应当包含第 8 行,因为我们只需要考虑 id 连续的记录。
不输出 id 为 2 和 3 的行,因为至少需要三条 id 连续的记录。

三,建表语句

import pandas as pd
data = [[1, '2017-01-01', 10], [2, '2017-01-02', 109], [3, '2017-01-03', 150], [4, '2017-01-04', 99], [5, '2017-01-05', 145], [6, '2017-01-06', 1455], [7, '2017-01-07', 199], [8, '2017-01-09', 188]]
stadium = pd.DataFrame(data, columns=['id', 'visit_date', 'people']).astype({'id':'Int64', 'visit_date':'datetime64[ns]', 'people':'Int64'})
stadium

四,分析

题解:

表:体育馆表

字段:编号id,日期,人流量

求人流量大于等于100 且id是连续的人流量  最后结果按照日期排序

第一步 去掉小于100的人流量

 

第二步,以id排序,生成一个新序号

 

第三步,计算差值 id-新序号 如果差值相同 则必然是连续的

 

第四步,以差值分组 统计连续的行数

 

最后 取cnt大于等于3的行数 并且映射指定的列 然后以日期排序即可

五,Pandas解答

import pandas as pd

def human_traffic(stadium: pd.DataFrame) -> pd.DataFrame:
    #过滤掉小于100的 人流量
    df = stadium[stadium['people']>=100]
    #生成新的排序
    df1= df.copy()
    df1['rn'] = df['id'].rank(method='min')
    #求出差值
    df1['diff'] = df1['id'] - df1['rn']
    #生成序列 类似sql中 count over的效果
    df1['cnt'] = df1.groupby('diff')['diff'].transform('count')
    #过滤次数小于3的行数
    df2 = df1[df1['cnt']>=3]
    #取对应的列
    df3 = df2[['id','visit_date','people']]
    #最排序
    df4 = df3.sort_values('visit_date')
    return df4
human_traffic(stadium)

六,验证

七,知识点总结

  • Pandas中过滤的运用 API 切片的方式
  • Pandas中 复制的运用 API copy()
  • Pandas中 排序的运用 直接全部排序 API rank
  • Pandas中实现类似sql中count over的效果 API groupby...transfrom
  • Pandas中排序的运用 sort_valuse 
  • 经典连续问题 用求差值的方法解答

  • 学习:知识的初次邂逅
  • 复习:知识的温故知新
  • 练习:知识的实践应用
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值