25，【连续问题的困难题】Python数分之Pandas训练，力扣，601. 体育馆的人流量-CSDN博客

本文链接：https://blog.csdn.net/qq_55006020/article/details/142591468

学习：知识的初次邂逅
复习：知识的温故知新
练习：知识的实践应用

一，原题力扣链接

. - 力扣（LeetCode）

二，题干

表：Stadium

+---------------+---------+
| Column Name   | Type    |
+---------------+---------+
| id            | int     |
| visit_date    | date    |
| people        | int     |
+---------------+---------+
visit_date 是该表中具有唯一值的列。
每日人流量信息被记录在这三列信息中：序号 (id)、日期 (visit_date)、 人流量 (people)
每天只有一行记录，日期随着 id 的增加而增加

编写解决方案找出每行的人数大于或等于 100 且 id 连续的三行或更多行记录。

返回按 visit_date 升序排列 的结果表。

查询结果格式如下所示。

示例 1:

输入：
Stadium 表:
+------+------------+-----------+
| id   | visit_date | people    |
+------+------------+-----------+
| 1    | 2017-01-01 | 10        |
| 2    | 2017-01-02 | 109       |
| 3    | 2017-01-03 | 150       |
| 4    | 2017-01-04 | 99        |
| 5    | 2017-01-05 | 145       |
| 6    | 2017-01-06 | 1455      |
| 7    | 2017-01-07 | 199       |
| 8    | 2017-01-09 | 188       |
+------+------------+-----------+
输出：
+------+------------+-----------+
| id   | visit_date | people    |
+------+------------+-----------+
| 5    | 2017-01-05 | 145       |
| 6    | 2017-01-06 | 1455      |
| 7    | 2017-01-07 | 199       |
| 8    | 2017-01-09 | 188       |
+------+------------+-----------+
解释：
id 为 5、6、7、8 的四行 id 连续，并且每行都有 >= 100 的人数记录。
请注意，即使第 7 行和第 8 行的 visit_date 不是连续的，输出也应当包含第 8 行，因为我们只需要考虑 id 连续的记录。
不输出 id 为 2 和 3 的行，因为至少需要三条 id 连续的记录。

三，建表语句

import pandas as pd
data = [[1, '2017-01-01', 10], [2, '2017-01-02', 109], [3, '2017-01-03', 150], [4, '2017-01-04', 99], [5, '2017-01-05', 145], [6, '2017-01-06', 1455], [7, '2017-01-07', 199], [8, '2017-01-09', 188]]
stadium = pd.DataFrame(data, columns=['id', 'visit_date', 'people']).astype({'id':'Int64', 'visit_date':'datetime64[ns]', 'people':'Int64'})
stadium

四，分析

题解：

表：体育馆表

字段：编号id，日期，人流量

求人流量大于等于100 且id是连续的人流量最后结果按照日期排序

第一步去掉小于100的人流量

第二步，以id排序，生成一个新序号

第三步，计算差值 id-新序号如果差值相同则必然是连续的

第四步，以差值分组统计连续的行数

最后取cnt大于等于3的行数并且映射指定的列然后以日期排序即可

五，Pandas解答

import pandas as pd

def human_traffic(stadium: pd.DataFrame) -> pd.DataFrame:
    #过滤掉小于100的 人流量
    df = stadium[stadium['people']>=100]
    #生成新的排序
    df1= df.copy()
    df1['rn'] = df['id'].rank(method='min')
    #求出差值
    df1['diff'] = df1['id'] - df1['rn']
    #生成序列 类似sql中 count over的效果
    df1['cnt'] = df1.groupby('diff')['diff'].transform('count')
    #过滤次数小于3的行数
    df2 = df1[df1['cnt']>=3]
    #取对应的列
    df3 = df2[['id','visit_date','people']]
    #最排序
    df4 = df3.sort_values('visit_date')
    return df4
human_traffic(stadium)

六，验证

七，知识点总结

Pandas中过滤的运用 API 切片的方式
Pandas中复制的运用 API copy（）
Pandas中排序的运用直接全部排序 API rank
Pandas中实现类似sql中count over的效果 API groupby...transfrom
Pandas中排序的运用 sort_valuse
经典连续问题用求差值的方法解答