在 Python 数据分析中,Pandas 是一个强大的库,用于处理和分析数据。它提供了各种各样的方法和函数,使数据转换和操作变得更加容易。在本文中,将深入探讨 Pandas 中的 case_when()
方法,它可以用于条件性地创建新的列,类似于 SQL 中的 CASE WHEN
语句。我们将详细讨论该方法的用法,并提供丰富的示例代码。
什么是 case_when()
方法?
case_when()
方法是 Pandas 库中的一个函数,它允许我们根据条件创建新的列。这个方法通常用于根据数据的某些特征或条件来生成新的数据列,类似于使用 if-else 语句进行条件判断。
在 Pandas 中,case_when()
方法通常与 apply()
方法结合使用,以便根据条件对每一行数据进行操作。它提供了一种更灵活的方式来处理数据,而不需要编写大量的条件判断语句。
case_when()
方法的语法
case_when()
方法的语法如下:
pandas.Series.case_when(conditions, values, default=None, *args, **kwargs)
参数说明:
conditions
:条件列表,用于定义何时应用哪个值。values
:与条件列表中的每个条件相对应的值列表,用于指定满足条件时要应用的值。default
:可选参数,用于指定默认值,当没有条件匹配时将使用该值。*args
和**kwargs
:其他参数,用于传递给apply()
方法。
示例代码
通过几个示例来演示 case_when()
方法的用法。
示例 1:基本用法
假设有一个包含学生分数的数据集,我们想根据分数判断他们的等级。
可以使用 case_when()
方法来实现这个任务:
import pandas as pd
# 创建示例数据集
data = {'学生姓名': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
'分数': [85, 70, 95, 60, 75]}
df = pd.DataFrame(data)
# 定义条件和对应的值
conditions = [df['分数'] >= 90, (df['分数'] >= 80) & (df['分数'] < 90), df['分数'] < 80]
values = ['优秀', '良好', '及格']
# 使用 case_when() 方法创建新列
df['等级'] = df['分数'].case_when(conditions, values, default='不及格')
# 输出结果
print(df)
以上代码将根据学生的分数创建一个新的等级列,并根据条件将相应的等级分配给每个学生。
示例 2:使用默认值
有时候,某些数据可能不满足任何条件。在这种情况下,可以使用默认值来处理这些情况:
import pandas as pd
# 创建示例数据集
data = {'学生姓名': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
'分数': [85, 70, 95, 60, None]}
df = pd.DataFrame(data)
# 定义条件和对应的值
conditions = [df['分数'] >= 90, (df['分数'] >= 80) & (df['分数'] < 90), df['分数'] < 80]
values = ['优秀', '良好', '及格']
# 使用 case_when() 方法创建新列,并设置默认值为 '未知'
df['等级'] = df['分数'].case_when(conditions, values, default='未知')
# 输出结果
print(df)
在这个示例中,使用了一个包含空值的数据集,并使用 default
参数将没有匹配条件的行标记为“未知”。
示例 3:使用 apply() 方法
case_when()
方法通常与 apply()
方法一起使用,以便根据多个条件对数据集的每一行进行操作。
以下是一个示例,根据学生的分数和出勤情况来计算他们的最终成绩:
import pandas as pd
# 创建示例数据集
data = {'学生姓名': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
'分数': [85, 70, 95, 60, 75],
'出勤率': [90, 80, 95, 70, 85]}
df = pd.DataFrame(data)
# 使用 apply() 方法将多个条件应用于每一行
def calculate_grade(row):
if row['分数'] >= 90 and row['出勤率'] >= 90:
return '优秀'
elif row['分数'] >= 80 and row['出勤率'] >= 80:
return '良好'
elif row['分数'] >= 60 and row['出勤率'] >= 70:
return '及格'
else:
return '不及格'
df['最终成绩'] = df.apply(calculate_grade, axis=1)
# 输出结果
print(df)
在这个示例中,使用 apply()
方法定义了一个自定义函数 calculate_grade()
,该函数基于多个条件来计算最终成绩,并将其应用于数据集的每一行。
示例 4:多条件的复杂情况
有时候,需要根据多个条件的组合来生成新的列。
例如,可以根据学生的分数和出勤情况来确定他们是否能够获得奖学金:
import pandas as pd
# 创建示例数据集
data = {'学生姓名': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
'分数': [85, 70, 95, 60, 75],
'出勤率': [90, 80, 95, 70, 85]}
df = pd.DataFrame(data)
# 定义多条件和对应的值
conditions = [(df['分数'] >= 90) & (df['出勤率'] >= 90),
(df['分数'] >= 80) & (df['出勤率'] >= 80),
(df['分数'] >= 60) & (df['出勤率'] >= 70)]
values = ['获奖学金', '荣誉奖', '合格']
# 使用 case_when() 方法创建新列
df['奖励'] = df.apply(lambda row: row['分数'].case_when(conditions, values, default='未获奖'), axis=1)
# 输出结果
print(df)
在这个示例中,定义了多个条件和对应的值,并使用 apply()
方法将 case_when()
方法应用于每一行数据,根据多个条件的组合来确定是否获得奖学金。
示例 5:根据多列生成新列
有时候,需要根据多列的值生成新的列。
例如,可以根据学生的分数和出勤情况来生成一个总分列:
import pandas as pd
# 创建示例数据集
data = {'学生姓名': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
'分数1': [85, 70, 95, 60, 75],
'分数2': [90, 80, 85, 70, 90]}
df = pd.DataFrame(data)
# 使用 apply() 方法生成新列
df['总分'] = df.apply(lambda row: row['分数1'] + row['分数2'], axis=1)
# 输出结果
print(df)
在这个示例中,使用 apply()
方法将两列分数相加,生成了一个新的总分列。
示例 6:处理缺失值
case_when()
方法也可以用于处理缺失值。
例如,可以根据分数是否缺失来为学生分配等级:
import pandas as pd
import numpy as np
# 创建示例数据集
data = {'学生姓名': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
'分数': [85, np.nan, 95, 60, 75]}
df = pd.DataFrame(data)
# 定义条件和对应的值
conditions = [df['分数'].notna() & (df['分数'] >= 90),
df['分数'].notna() & (df['分数'] >= 80),
df['分数'].notna() & (df['分数'] >= 60)]
values = ['优秀', '良好', '及格']
# 使用 case_when() 方法创建新列,并处理缺失值
df['等级'] = df['分数'].case_when(conditions, values, default='不及格')
# 输出结果
print(df)
在这个示例中,使用 notna()
方法来检查分数是否缺失,并根据条件来为每个学生分配等级。
以上就是“Python Pandas 中的 case_when() 方法详解”的全部内容,希望对你有所帮助。
关于Python技术储备
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
一、Python所有方向的学习路线
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python必备开发工具
三、Python视频合集
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
四、实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
五、Python练习题
检查学习结果。
六、面试资料
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
最后祝大家天天进步!!
上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。