22,Python数分之Pandas训练,力扣,579. 查询员工的累计薪水 [连续问题难度只最~]

  • 学习:知识的初次邂逅
  • 复习:知识的温故知新
  • 练习:知识的实践应用

目录

一,原题力扣链接

二,题干

三,建表语句

四,分析

五,SQL解答

六,验证

七,知识点总结


一,原题力扣链接

. - 力扣(LeetCode)

二,题干

表:Employee

+-------------+------+
| Column Name | Type |
+-------------+------+
| id          | int  |
| month       | int  |
| salary      | int  |
+-------------+------+
(id, month) 是该表的主键(具有唯一值的列的组合)。
表中的每一行表示 2020 年期间员工一个月的工资。

编写一个解决方案,在一个统一的表中计算出每个员工的 累计工资汇总 。

员工的 累计工资汇总 可以计算如下:

  • 对于该员工工作的每个月,将 该月 和 前两个月 的工资  起来。这是他们当月的 3 个月总工资 。如果员工在前几个月没有为公司工作,那么他们在前几个月的有效工资为 0 。
  • 不要 在摘要中包括员工 最近一个月 的 3 个月总工资和。
  • 不要 包括雇员 没有工作 的任何一个月的 3 个月总工资和。

返回按 id 升序排序 的结果表。如果 id 相等,请按 month 降序排序

结果格式如下所示。

示例 1

输入:
Employee table:
+----+-------+--------+
| id | month | salary |
+----+-------+--------+
| 1  | 1     | 20     |
| 2  | 1     | 20     |
| 1  | 2     | 30     |
| 2  | 2     | 30     |
| 3  | 2     | 40     |
| 1  | 3     | 40     |
| 3  | 3     | 60     |
| 1  | 4     | 60     |
| 3  | 4     | 70     |
| 1  | 7     | 90     |
| 1  | 8     | 90     |
+----+-------+--------+
输出:
+----+-------+--------+
| id | month | Salary |
+----+-------+--------+
| 1  | 7     | 90     |
| 1  | 4     | 130    |
| 1  | 3     | 90     |
| 1  | 2     | 50     |
| 1  | 1     | 20     |
| 2  | 1     | 20     |
| 3  | 3     | 100    |
| 3  | 2     | 40     |
+----+-------+--------+
解释:
员工 “1” 有 5 条工资记录,不包括最近一个月的 “8”:
- 第 '7' 个月为 90。
- 第 '4' 个月为 60。
- 第 '3' 个月是 40。
- 第 '2' 个月为 30。
- 第 '1' 个月为 20。
因此,该员工的累计工资汇总为:
+----+-------+--------+
| id | month | salary |
+----+-------+--------+
| 1  | 7     | 90     |  (90 + 0 + 0)
| 1  | 4     | 130    |  (60 + 40 + 30)
| 1  | 3     | 90     |  (40 + 30 + 20)
| 1  | 2     | 50     |  (30 + 20 + 0)
| 1  | 1     | 20     |  (20 + 0 + 0)
+----+-------+--------+
请注意,'7' 月的 3 个月的总和是 90,因为他们没有在 '6' 月或 '5' 月工作。

员工 '2' 只有一个工资记录('1' 月),不包括最近的 '2' 月。
+----+-------+--------+
| id | month | salary |
+----+-------+--------+
| 2  | 1     | 20     |  (20 + 0 + 0)
+----+-------+--------+

员工 '3' 有两个工资记录,不包括最近一个月的 '4' 月:
- 第 '3' 个月为 60 。
- 第 '2' 个月是 40。
因此,该员工的累计工资汇总为:
+----+-------+--------+
| id | month | salary |
+----+-------+--------+
| 3  | 3     | 100    |  (60 + 40 + 0)
| 3  | 2     | 40     |  (40 + 0 + 0)
+----+-------+--------+

三,建表语句

import pandas as pd
data = [[1, 1, 20], [2, 1, 20], [1, 2, 30], [2, 2, 30], [3, 2, 40], [1, 3, 40], [3, 3, 60], [1, 4, 60], [3, 4, 70], [1, 7, 90], [1, 8, 90]]
employee = pd.DataFrame(data, columns=['id', 'month', 'salary']).astype({'id':'Int64', 'month':'Int64', 'salary':'Int64'})
employee

四,分析

题解:

表:员工表

字段:员工id,员工薪资的月份,员工的薪资

求 员工3月的累计薪资,非连续的累计薪资,且最后一个月不纳入其中

 

 

 第一步,排序

#排序 
df = employee.sort_values(by=['id','month'], ascending=[True,True])
df

  

 第二步,计算差值  先类似sql中row_number的方式 分组排个序 

然后减去差值 得到相同的数字就是连续的数据~

#计算差值
df['ro'] = df.groupby('id')['month'].rank(method='min')
df['diff'] = df['month'] - df['ro']  #结算差值出来
df

第三步,类似于sql中 lag函数 开窗 

以id和差值分组  求薪资上一行 和上两行的数据  如果数据是NAN 就用0填充 


df['shang1'] = df.groupby(['id','diff'])['salary'].shift(1).fillna(0)
df['shang2'] = df.groupby(['id','diff'])['salary'].shift(2).fillna(0)
df['res'] = df['salary']+df['shang1']+df['shang2']
df

   

 第四步:  取对应的列 然后放置报错 复制一份 最后逆序排一个

#取指定的列  并且去除最后一个月 分组求tobN
df1 = df[['id','month','res']]
df2 = pd.DataFrame(df1).copy()
df2['rw'] = df2.groupby(['id'])['month'].rank(method='max',ascending=False)
df2

第五步,去除rw=1的 然后去对应的列 按照题目要求排序 并且改名即可

 

五,Pandas解答

import pandas as pd

def cumulative_salary(employee: pd.DataFrame) -> pd.DataFrame:
    #排序 
    df = employee.sort_values(by=['id','month'], ascending=[True,True])
    #计算差值  判断是否为连续
    df['ro'] = df.groupby('id')['month'].rank(method='min')
    df['diff'] = df['month'] - df['ro']  #结算差值出来
    #以差值分组  然后类似sql中的 lag函数 取前两行的薪资 如果是NaN就用0填充
    df['shang1'] = df.groupby(['id','diff'])['salary'].shift(1).fillna(0)
    df['shang2'] = df.groupby(['id','diff'])['salary'].shift(2).fillna(0)
    df['res'] = df['salary']+df['shang1']+df['shang2']
    #取指定的列  并且去除最后一个月 分组求tobN  不要第一名 也就是不要最后一个月
    df1 = df[['id','month','res']]
    df2 = pd.DataFrame(df1).copy()  #这里是防止弹出警告
    df2['rw'] = df2.groupby(['id'])['month'].rank(method='max',ascending=False)
    df2 = df2[df2['rw'] != 1]
    #映射对应的列 然后排序 并且改名
    df3 = df2[['id','month','res']]
    df3 = df3.sort_values(['id','month'],ascending=[True,False])
    df3 = df3.rename(columns={'res':'Salary'})
    return df3
cumulative_salary(employee)

六,验证

七,知识点总结

  • Pandas中 多列排序的练习 API: sort_values
  • Pandas中 类似sql中row_number排序的用法分组排序 API:groupby.rank..method
  • Pandas中 类似lag函数的用法的 API groupby...shift(要取的行)
  • Pandas中 类似row_number 分组的排序的运用
  • Pandas中改名API的运用
  • Pandas中如果是NAN就用0填充 反之就是原来的数字   API: fillna(0)
  • 非连续的累计和问题   遇到连续问题 先求差值
  • 然后以差值和id分组  求上一行和上N行数据 累计相加

  • 学习:知识的初次邂逅
  • 复习:知识的温故知新
  • 练习:知识的实践应用
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值