该题目来源于力扣:
题目要求:
表:Employee
+---------------+---------+
| Column Name | Type |
+---------------+---------+
| employee_id | int |
| department_id | int |
| primary_flag | varchar |
+---------------+---------+
这张表的主键为 employee_id, department_id (具有唯一值的列的组合)
employee_id 是员工的ID
department_id 是部门的ID,表示员工与该部门有关系
primary_flag 是一个枚举类型,值分别为('Y', 'N'). 如果值为'Y',表示该部门是员工的直属部门。 如果值是'N',则否
一个员工可以属于多个部门。当一个员工加入超过一个部门的时候,他需要决定哪个部门是他的直属部门。请注意,当员工只加入一个部门的时候,那这个部门将默认为他的直属部门,虽然表记录的值为'N'.
请编写解决方案,查出员工所属的直属部门。
返回结果 没有顺序要求 。
返回结果格式如下例子所示:
示例 1:
输入:
Employee table:
+-------------+---------------+--------------+
| employee_id | department_id | primary_flag |
+-------------+---------------+--------------+
| 1 | 1 | N |
| 2 | 1 | Y |
| 2 | 2 | N |
| 3 | 3 | N |
| 4 | 2 | N |
| 4 | 3 | Y |
| 4 | 4 | N |
+-------------+---------------+--------------+
输出:
+-------------+---------------+
| employee_id | department_id |
+-------------+---------------+
| 1 | 1 |
| 2 | 1 |
| 3 | 3 |
| 4 | 3 |
+-------------+---------------+
解释:
- 员工 1 的直属部门是 1
- 员工 2 的直属部门是 1
- 员工 3 的直属部门是 3
- 员工 4 的直属部门是 3
实现方式一:直接查询
这里需要用到的特殊函数是.duplicated() 可以检查重复值,前置~可以取反。这里内置参数keep=False表示表示所有重复项,取反后则得出所有不包含重复项的数据
import pandas as pd
def find_primary_department(employee: pd.DataFrame) -> pd.DataFrame:
employee=employee.query("primary_flag=='Y' | (~employee_id.duplicated(keep=False))")
return employee[['employee_id','department_id']]
两个条件要用到“或”的关系,所用用“|”来表示,实现的很轻松
实现方式二:if-else判断
这个方法比较繁琐,我会在代码内部编写注释来解释所有的功能
import pandas as pd
def find_primary_department(employee: pd.DataFrame) -> pd.DataFrame:
#首先将空数据框值赋给data用来最后进行传入
data=pd.DataFrame()
#利用for in函数传入自定义index,df来遍历按照employee_id分组的employee的索引和字数据集
for index,df in employee.groupby('employee_id'):
if df.shape[0]>1: #shape[0行1列]这里说明筛选出分组后的子数据集按行大于一行的
df=df[df['primary_flag']=='Y']#查找当职员选择了多个部门后的直属部门,并重新赋值给子数据集
data=pd.concat([data,df])#将df和空值进行合并
return data[["employee_id","department_id"]]
直接查询相比if-else判断更加容易一些,但是有些复杂的情况还是会用到if-else语句,建议大家也掌握这个方法