22，Python数分之Pandas训练，力扣，579. 查询员工的累计薪水 [连续问题难度只最~]

最新推荐文章于 2024-09-27 19:34:45 发布

凡梦_leo

最新推荐文章于 2024-09-27 19:34:45 发布

阅读量747

点赞数 14

分类专栏：数分之Pandas实战训练文章标签：数据分析数据挖掘 sql python 数据库 pandas leetcode

本文链接：https://blog.csdn.net/qq_55006020/article/details/142588586

版权

数分之Pandas实战训练专栏收录该内容

32 篇文章 0 订阅

订阅专栏

学习：知识的初次邂逅
复习：知识的温故知新
练习：知识的实践应用

一，原题力扣链接

. - 力扣（LeetCode）

二，题干

表：Employee

+-------------+------+
| Column Name | Type |
+-------------+------+
| id          | int  |
| month       | int  |
| salary      | int  |
+-------------+------+
(id, month) 是该表的主键(具有唯一值的列的组合)。
表中的每一行表示 2020 年期间员工一个月的工资。

编写一个解决方案，在一个统一的表中计算出每个员工的 累计工资汇总 。

员工的 累计工资汇总 可以计算如下:

对于该员工工作的每个月，将该月和 前两个月 的工资加起来。这是他们当月的 3 个月总工资和。如果员工在前几个月没有为公司工作，那么他们在前几个月的有效工资为 0 。
不要在摘要中包括员工 最近一个月 的 3 个月总工资和。
不要包括雇员 没有工作 的任何一个月的 3 个月总工资和。

返回按 id 升序排序 的结果表。如果 id 相等，请按 month 降序排序。

结果格式如下所示。

示例 1

输入：
Employee table:
+----+-------+--------+
| id | month | salary |
+----+-------+--------+
| 1  | 1     | 20     |
| 2  | 1     | 20     |
| 1  | 2     | 30     |
| 2  | 2     | 30     |
| 3  | 2     | 40     |
| 1  | 3     | 40     |
| 3  | 3     | 60     |
| 1  | 4     | 60     |
| 3  | 4     | 70     |
| 1  | 7     | 90     |
| 1  | 8     | 90     |
+----+-------+--------+
输出：
+----+-------+--------+
| id | month | Salary |
+----+-------+--------+
| 1  | 7     | 90     |
| 1  | 4     | 130    |
| 1  | 3     | 90     |
| 1  | 2     | 50     |
| 1  | 1     | 20     |
| 2  | 1     | 20     |
| 3  | 3     | 100    |
| 3  | 2     | 40     |
+----+-------+--------+
解释：
员工 “1” 有 5 条工资记录，不包括最近一个月的 “8”:
- 第 '7' 个月为 90。
- 第 '4' 个月为 60。
- 第 '3' 个月是 40。
- 第 '2' 个月为 30。
- 第 '1' 个月为 20。
因此，该员工的累计工资汇总为:
+----+-------+--------+
| id | month | salary |
+----+-------+--------+
| 1  | 7     | 90     |  (90 + 0 + 0)
| 1  | 4     | 130    |  (60 + 40 + 30)
| 1  | 3     | 90     |  (40 + 30 + 20)
| 1  | 2     | 50     |  (30 + 20 + 0)
| 1  | 1     | 20     |  (20 + 0 + 0)
+----+-------+--------+
请注意，'7' 月的 3 个月的总和是 90，因为他们没有在 '6' 月或 '5' 月工作。

员工 '2' 只有一个工资记录('1' 月)，不包括最近的 '2' 月。
+----+-------+--------+
| id | month | salary |
+----+-------+--------+
| 2  | 1     | 20     |  (20 + 0 + 0)
+----+-------+--------+

员工 '3' 有两个工资记录，不包括最近一个月的 '4' 月:
- 第 '3' 个月为 60 。
- 第 '2' 个月是 40。
因此，该员工的累计工资汇总为:
+----+-------+--------+
| id | month | salary |
+----+-------+--------+
| 3  | 3     | 100    |  (60 + 40 + 0)
| 3  | 2     | 40     |  (40 + 0 + 0)
+----+-------+--------+

三，建表语句

import pandas as pd
data = [[1, 1, 20], [2, 1, 20], [1, 2, 30], [2, 2, 30], [3, 2, 40], [1, 3, 40], [3, 3, 60], [1, 4, 60], [3, 4, 70], [1, 7, 90], [1, 8, 90]]
employee = pd.DataFrame(data, columns=['id', 'month', 'salary']).astype({'id':'Int64', 'month':'Int64', 'salary':'Int64'})
employee

四，分析

题解:

表:员工表

字段:员工id,员工薪资的月份,员工的薪资

求员工3月的累计薪资,非连续的累计薪资,且最后一个月不纳入其中

第一步,排序

#排序 
df = employee.sort_values(by=['id','month'], ascending=[True,True])
df

第二步,计算差值先类似sql中row_number的方式分组排个序

然后减去差值得到相同的数字就是连续的数据~

#计算差值
df['ro'] = df.groupby('id')['month'].rank(method='min')
df['diff'] = df['month'] - df['ro']  #结算差值出来
df

第三步,类似于sql中 lag函数开窗

以id和差值分组求薪资上一行和上两行的数据如果数据是NAN 就用0填充


df['shang1'] = df.groupby(['id','diff'])['salary'].shift(1).fillna(0)
df['shang2'] = df.groupby(['id','diff'])['salary'].shift(2).fillna(0)
df['res'] = df['salary']+df['shang1']+df['shang2']
df

第四步: 取对应的列然后放置报错复制一份最后逆序排一个

#取指定的列  并且去除最后一个月 分组求tobN
df1 = df[['id','month','res']]
df2 = pd.DataFrame(df1).copy()
df2['rw'] = df2.groupby(['id'])['month'].rank(method='max',ascending=False)
df2

第五步,去除rw=1的然后去对应的列按照题目要求排序并且改名即可

五，Pandas解答

import pandas as pd

def cumulative_salary(employee: pd.DataFrame) -> pd.DataFrame:
    #排序 
    df = employee.sort_values(by=['id','month'], ascending=[True,True])
    #计算差值  判断是否为连续
    df['ro'] = df.groupby('id')['month'].rank(method='min')
    df['diff'] = df['month'] - df['ro']  #结算差值出来
    #以差值分组  然后类似sql中的 lag函数 取前两行的薪资 如果是NaN就用0填充
    df['shang1'] = df.groupby(['id','diff'])['salary'].shift(1).fillna(0)
    df['shang2'] = df.groupby(['id','diff'])['salary'].shift(2).fillna(0)
    df['res'] = df['salary']+df['shang1']+df['shang2']
    #取指定的列  并且去除最后一个月 分组求tobN  不要第一名 也就是不要最后一个月
    df1 = df[['id','month','res']]
    df2 = pd.DataFrame(df1).copy()  #这里是防止弹出警告
    df2['rw'] = df2.groupby(['id'])['month'].rank(method='max',ascending=False)
    df2 = df2[df2['rw'] != 1]
    #映射对应的列 然后排序 并且改名
    df3 = df2[['id','month','res']]
    df3 = df3.sort_values(['id','month'],ascending=[True,False])
    df3 = df3.rename(columns={'res':'Salary'})
    return df3
cumulative_salary(employee)

六，验证

七，知识点总结

Pandas中多列排序的练习 API: sort_values
Pandas中类似sql中row_number排序的用法分组排序 API:groupby.rank..method
Pandas中类似lag函数的用法的 API groupby...shift(要取的行)
Pandas中类似row_number 分组的排序的运用
Pandas中改名API的运用
Pandas中如果是NAN就用0填充反之就是原来的数字 API: fillna(0)
非连续的累计和问题遇到连续问题先求差值
然后以差值和id分组求上一行和上N行数据累计相加