Pandas筛选数据的10种方法

Pandas是Python中用于数据操作和分析的强大库之一.它提供了丰富的功能来处理和筛选数据.本文将介绍Pandas中筛选数据的10种常用方法,并通过示例展示具体操作步骤.

1. 基于条件筛选

Pandas支持通过布尔索引根据条件筛选数据.这是最常用的筛选方法之一.

import pandas as pd

# 创建示例数据框
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Age': [24, 27, 22, 32, 29],
    'Salary': [50000, 54000, 49000, 72000, 62000]
}
df = pd.DataFrame(data)

# 筛选年龄大于25岁的人
filtered_df = df[df['Age'] > 25]
print(filtered_df)

2. 使用.loc根据行标签筛选

.loc方法用于基于行标签进行筛选.

# 筛选Name为'Bob'和'Eva'的行
filtered_df = df.loc[df['Name'].isin(['Bob', 'Eva'])]
print(filtered_df)

3. 使用.iloc根据行索引筛选

.iloc方法用于基于行索引进行筛选.

# 筛选前两行
filtered_df = df.iloc[:2]
print(filtered_df)

4. 使用.query方法筛选

.query方法允许使用字符串表达式来筛选数据.

# 筛选工资大于50000的行
filtered_df = df.query('Salary > 50000')
print(filtered_df)

5. 多条件筛选

Pandas支持通过逻辑运算符进行多条件筛选.

# 筛选年龄大于25岁且工资大于60000的行
filtered_df = df[(df['Age'] > 25) & (df['Salary'] > 60000)]
print(filtered_df)

6. 筛选缺失值

可以使用.isna()和.notna()方法来筛选包含缺失值或不包含缺失值的行.

# 创建包含缺失值的数据框
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Age': [24, 27, None, 32, 29],
    'Salary': [50000, 54000, 49000, None, 62000]
}
df = pd.DataFrame(data)

# 筛选包含缺失值的行
filtered_df = df[df['Age'].isna()]
print(filtered_df)

# 筛选不包含缺失值的行
filtered_df = df[df['Salary'].notna()]
print(filtered_df)

7. 基于索引筛选

可以通过设置索引和基于索引的条件进行筛选.

# 设置'Name'列为索引
df.set_index('Name', inplace=True)

# 筛选索引为'Alice'和'Charlie'的行
filtered_df = df.loc[['Alice', 'Charlie']]
print(filtered_df)

8. 使用.between()方法筛选

.between()方法用于筛选在两个值之间的数据.

# 筛选年龄在25到30岁之间的行
filtered_df = df[df['Age'].between(25, 30)]
print(filtered_df)

9. 使用正则表达式筛选

可以使用.str.contains()方法结合正则表达式进行字符串筛选.

# 筛选名称以'A'开头的行
filtered_df = df[df.index.str.contains('^A')]
print(filtered_df)

10. 按列值进行分组筛选

可以使用.groupby()方法进行分组后筛选特定条件的数据.

# 恢复索引
df.reset_index(inplace=True)

# 按年龄分组并筛选年龄大于25岁组中的最大工资
grouped_df = df.groupby('Age').max()
filtered_df = grouped_df[grouped_df['Salary'] > 60000]
print(filtered_df)

总结

Pandas提供了多种强大的数据筛选方法,能够帮助我们高效地处理和分析数据.通过上述10种方法,你可以根据不同的需求选择适合的筛选方式,提高数据处理的效率和灵活性.

希望这篇文章对你有所帮助,祝你在数据分析的道路上取得更大的成就!如有任何问题或需要进一步的帮助,在评论区告诉我.

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

python茶水实验室

你的关注,是我创作的最大动力.

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值