- 学习:知识的初次邂逅
- 复习:知识的温故知新
- 练习:知识的实践应用
目录
一,原题力扣链接
二,题干
表:
Stadium
+---------------+---------+ | Column Name | Type | +---------------+---------+ | id | int | | visit_date | date | | people | int | +---------------+---------+ visit_date 是该表中具有唯一值的列。 每日人流量信息被记录在这三列信息中:序号 (id)、日期 (visit_date)、 人流量 (people) 每天只有一行记录,日期随着 id 的增加而增加编写解决方案找出每行的人数大于或等于
100
且id
连续的三行或更多行记录。返回按
visit_date
升序排列 的结果表。查询结果格式如下所示。
示例 1:
输入: Stadium
表: +------+------------+-----------+ | id | visit_date | people | +------+------------+-----------+ | 1 | 2017-01-01 | 10 | | 2 | 2017-01-02 | 109 | | 3 | 2017-01-03 | 150 | | 4 | 2017-01-04 | 99 | | 5 | 2017-01-05 | 145 | | 6 | 2017-01-06 | 1455 | | 7 | 2017-01-07 | 199 | | 8 | 2017-01-09 | 188 | +------+------------+-----------+ 输出: +------+------------+-----------+ | id | visit_date | people | +------+------------+-----------+ | 5 | 2017-01-05 | 145 | | 6 | 2017-01-06 | 1455 | | 7 | 2017-01-07 | 199 | | 8 | 2017-01-09 | 188 | +------+------------+-----------+ 解释: id 为 5、6、7、8 的四行 id 连续,并且每行都有 >= 100 的人数记录。 请注意,即使第 7 行和第 8 行的 visit_date 不是连续的,输出也应当包含第 8 行,因为我们只需要考虑 id 连续的记录。 不输出 id 为 2 和 3 的行,因为至少需要三条 id 连续的记录。
三,建表语句
import pandas as pd
data = [[1, '2017-01-01', 10], [2, '2017-01-02', 109], [3, '2017-01-03', 150], [4, '2017-01-04', 99], [5, '2017-01-05', 145], [6, '2017-01-06', 1455], [7, '2017-01-07', 199], [8, '2017-01-09', 188]]
stadium = pd.DataFrame(data, columns=['id', 'visit_date', 'people']).astype({'id':'Int64', 'visit_date':'datetime64[ns]', 'people':'Int64'})
stadium
四,分析
题解:
表:体育馆表
字段:编号id,日期,人流量
求人流量大于等于100 且id是连续的人流量 最后结果按照日期排序
第一步 去掉小于100的人流量
第二步,以id排序,生成一个新序号
第三步,计算差值 id-新序号 如果差值相同 则必然是连续的
第四步,以差值分组 统计连续的行数
最后 取cnt大于等于3的行数 并且映射指定的列 然后以日期排序即可
五,Pandas解答
import pandas as pd
def human_traffic(stadium: pd.DataFrame) -> pd.DataFrame:
#过滤掉小于100的 人流量
df = stadium[stadium['people']>=100]
#生成新的排序
df1= df.copy()
df1['rn'] = df['id'].rank(method='min')
#求出差值
df1['diff'] = df1['id'] - df1['rn']
#生成序列 类似sql中 count over的效果
df1['cnt'] = df1.groupby('diff')['diff'].transform('count')
#过滤次数小于3的行数
df2 = df1[df1['cnt']>=3]
#取对应的列
df3 = df2[['id','visit_date','people']]
#最排序
df4 = df3.sort_values('visit_date')
return df4
human_traffic(stadium)
六,验证
七,知识点总结
- Pandas中过滤的运用 API 切片的方式
- Pandas中 复制的运用 API copy()
- Pandas中 排序的运用 直接全部排序 API rank
- Pandas中实现类似sql中count over的效果 API groupby...transfrom
- Pandas中排序的运用 sort_valuse
- 经典连续问题 用求差值的方法解答
- 学习:知识的初次邂逅
- 复习:知识的温故知新
- 练习:知识的实践应用