- 学习:知识的初次邂逅
- 复习:知识的温故知新
- 练习:知识的实践应用
目录
一,原题力扣链接
二,题干
表:
Employee
+-------------+------+ | Column Name | Type | +-------------+------+ | id | int | | month | int | | salary | int | +-------------+------+ (id, month) 是该表的主键(具有唯一值的列的组合)。 表中的每一行表示 2020 年期间员工一个月的工资。编写一个解决方案,在一个统一的表中计算出每个员工的 累计工资汇总 。
员工的 累计工资汇总 可以计算如下:
- 对于该员工工作的每个月,将 该月 和 前两个月 的工资 加 起来。这是他们当月的 3 个月总工资和 。如果员工在前几个月没有为公司工作,那么他们在前几个月的有效工资为
0
。- 不要 在摘要中包括员工 最近一个月 的 3 个月总工资和。
- 不要 包括雇员 没有工作 的任何一个月的 3 个月总工资和。
返回按
id
升序排序 的结果表。如果id
相等,请按month
降序排序。结果格式如下所示。
示例 1
输入: Employee table: +----+-------+--------+ | id | month | salary | +----+-------+--------+ | 1 | 1 | 20 | | 2 | 1 | 20 | | 1 | 2 | 30 | | 2 | 2 | 30 | | 3 | 2 | 40 | | 1 | 3 | 40 | | 3 | 3 | 60 | | 1 | 4 | 60 | | 3 | 4 | 70 | | 1 | 7 | 90 | | 1 | 8 | 90 | +----+-------+--------+ 输出: +----+-------+--------+ | id | month | Salary | +----+-------+--------+ | 1 | 7 | 90 | | 1 | 4 | 130 | | 1 | 3 | 90 | | 1 | 2 | 50 | | 1 | 1 | 20 | | 2 | 1 | 20 | | 3 | 3 | 100 | | 3 | 2 | 40 | +----+-------+--------+ 解释: 员工 “1” 有 5 条工资记录,不包括最近一个月的 “8”: - 第 '7' 个月为 90。 - 第 '4' 个月为 60。 - 第 '3' 个月是 40。 - 第 '2' 个月为 30。 - 第 '1' 个月为 20。 因此,该员工的累计工资汇总为: +----+-------+--------+ | id | month | salary | +----+-------+--------+ | 1 | 7 | 90 | (90 + 0 + 0) | 1 | 4 | 130 | (60 + 40 + 30) | 1 | 3 | 90 | (40 + 30 + 20) | 1 | 2 | 50 | (30 + 20 + 0) | 1 | 1 | 20 | (20 + 0 + 0) +----+-------+--------+ 请注意,'7' 月的 3 个月的总和是 90,因为他们没有在 '6' 月或 '5' 月工作。 员工 '2' 只有一个工资记录('1' 月),不包括最近的 '2' 月。 +----+-------+--------+ | id | month | salary | +----+-------+--------+ | 2 | 1 | 20 | (20 + 0 + 0) +----+-------+--------+ 员工 '3' 有两个工资记录,不包括最近一个月的 '4' 月: - 第 '3' 个月为 60 。 - 第 '2' 个月是 40。 因此,该员工的累计工资汇总为: +----+-------+--------+ | id | month | salary | +----+-------+--------+ | 3 | 3 | 100 | (60 + 40 + 0) | 3 | 2 | 40 | (40 + 0 + 0) +----+-------+--------+
三,建表语句
import pandas as pd
data = [[1, 1, 20], [2, 1, 20], [1, 2, 30], [2, 2, 30], [3, 2, 40], [1, 3, 40], [3, 3, 60], [1, 4, 60], [3, 4, 70], [1, 7, 90], [1, 8, 90]]
employee = pd.DataFrame(data, columns=['id', 'month', 'salary']).astype({'id':'Int64', 'month':'Int64', 'salary':'Int64'})
employee
四,分析
题解:
表:员工表
字段:员工id,员工薪资的月份,员工的薪资
求 员工3月的累计薪资,非连续的累计薪资,且最后一个月不纳入其中
第一步,排序
#排序
df = employee.sort_values(by=['id','month'], ascending=[True,True])
df
第二步,计算差值 先类似sql中row_number的方式 分组排个序
然后减去差值 得到相同的数字就是连续的数据~
#计算差值
df['ro'] = df.groupby('id')['month'].rank(method='min')
df['diff'] = df['month'] - df['ro'] #结算差值出来
df
第三步,类似于sql中 lag函数 开窗
以id和差值分组 求薪资上一行 和上两行的数据 如果数据是NAN 就用0填充
df['shang1'] = df.groupby(['id','diff'])['salary'].shift(1).fillna(0)
df['shang2'] = df.groupby(['id','diff'])['salary'].shift(2).fillna(0)
df['res'] = df['salary']+df['shang1']+df['shang2']
df
第四步: 取对应的列 然后放置报错 复制一份 最后逆序排一个
#取指定的列 并且去除最后一个月 分组求tobN
df1 = df[['id','month','res']]
df2 = pd.DataFrame(df1).copy()
df2['rw'] = df2.groupby(['id'])['month'].rank(method='max',ascending=False)
df2
第五步,去除rw=1的 然后去对应的列 按照题目要求排序 并且改名即可
五,Pandas解答
import pandas as pd
def cumulative_salary(employee: pd.DataFrame) -> pd.DataFrame:
#排序
df = employee.sort_values(by=['id','month'], ascending=[True,True])
#计算差值 判断是否为连续
df['ro'] = df.groupby('id')['month'].rank(method='min')
df['diff'] = df['month'] - df['ro'] #结算差值出来
#以差值分组 然后类似sql中的 lag函数 取前两行的薪资 如果是NaN就用0填充
df['shang1'] = df.groupby(['id','diff'])['salary'].shift(1).fillna(0)
df['shang2'] = df.groupby(['id','diff'])['salary'].shift(2).fillna(0)
df['res'] = df['salary']+df['shang1']+df['shang2']
#取指定的列 并且去除最后一个月 分组求tobN 不要第一名 也就是不要最后一个月
df1 = df[['id','month','res']]
df2 = pd.DataFrame(df1).copy() #这里是防止弹出警告
df2['rw'] = df2.groupby(['id'])['month'].rank(method='max',ascending=False)
df2 = df2[df2['rw'] != 1]
#映射对应的列 然后排序 并且改名
df3 = df2[['id','month','res']]
df3 = df3.sort_values(['id','month'],ascending=[True,False])
df3 = df3.rename(columns={'res':'Salary'})
return df3
cumulative_salary(employee)
六,验证
七,知识点总结
- Pandas中 多列排序的练习 API: sort_values
- Pandas中 类似sql中row_number排序的用法分组排序 API:groupby.rank..method
- Pandas中 类似lag函数的用法的 API groupby...shift(要取的行)
- Pandas中 类似row_number 分组的排序的运用
- Pandas中改名API的运用
- Pandas中如果是NAN就用0填充 反之就是原来的数字 API: fillna(0)
- 非连续的累计和问题 遇到连续问题 先求差值
- 然后以差值和id分组 求上一行和上N行数据 累计相加
- 学习:知识的初次邂逅
- 复习:知识的温故知新
- 练习:知识的实践应用