pandas 数据操作与转换高级技巧实战:从选择过滤到向量化处理

在日常数据处理工作中,我们经常会遇到数据筛选、清洗、合并和转换等操作。这些看似基础的工作,却往往因为数据规模大、结构复杂而变得棘手。pandas 作为数据处理的核心工具,提供了一套强大而灵活的操作方法。本文将结合实际案例,深入探讨 pandas 中数据选择、清洗、合并和向量化操作的高级技巧,帮助你更高效地处理复杂数据。

一、数据选择与布尔操作:精准定位目标数据

在处理大型数据集时,如何快速准确地筛选出所需数据是关键。pandas 提供了多种数据选择方式,让我们可以基于标签、位置或条件进行灵活筛选。

1. 基于标签与位置索引

1.1 基本切片与列选择

python

import pandas as pd

# 创建示例DataFrame
data = {
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8],
    'C': [9, 10, 11, 12]
}
df = pd.DataFrame(data)

# 选择前两行
print(df[:2])

# 选择列A
print(df['A'])
1.2 loc 与 iloc:精确索引
  • loc:基于标签的索引
  • iloc:基于位置的索引

python

# 使用loc选择标签为0的行和列A
print(df.loc[0, 'A'])

# 使用iloc选择第一行和第一列
print(df.iloc[0, 0])

# 使用loc进行切片(包含结束标签)
print(df.loc[0:2, 'A':'B'])

# 使用iloc进行切片(不包含结束位置)
print(df.iloc[0:2, 0:2])

2. 布尔索引与过滤

2.1 布尔矩阵生成

python

# 创建第二个DataFrame用于比较
df2 = pd.DataFrame({
    'A': [2, 1, 3, 4],
    'B': [5, 7, 6, 8],
    'C': [10, 9, 12, 11]
})

# 生成布尔矩阵(比较df是否大于df2)
bool_matrix = df.gt(df2)
print(bool_matrix)

# 使用布尔矩阵过滤数据
print(df[bool_matrix])  # 大于df2的元素保留,其他为NaN
2.2 布尔约简操作

python

# 检查是否所有元素都大于0
print((df > 0).all())  # 按列检查
print((df > 0).all().all())  # 整个DataFrame检查

# 检查是否存在任何元素大于3
print((df > 3).any())
2.3 复合条件过滤

python

# 筛选列A大于2且列B小于8的行
print(df[(df['A'] > 2) & (df['B'] < 8)])

# 筛选列A等于1或列C大于10的行
print(df[(df['A'] == 1) | (df['C'] > 10)])

二、数据清洗与填充处理:让数据变得整洁

现实中的数据往往存在缺失值、重复值或不一致的情况,数据清洗是数据分析前必不可少的步骤。

1. 缺失值处理

1.1 算术运算中的缺失值填充

python

# 创建包含缺失值的DataFrame
df_missing = pd.DataFrame({
    'A': [1, np.nan, 3],
    'B': [4, 5, np.nan]
})

# 加法运算,使用fill_value参数填充缺失值
result = df_missing.add(df, fill_value=0)
print(result)
1.2 前后向填充

python

# 创建时间序列数据
dates = pd.date_range('20230101', periods=5)
df_time = pd.DataFrame({'A': [1, np.nan, np.nan, 4, np.nan]}, index=dates)

# 前向填充(ffill)
print(df_time.reindex(method='ffill'))

# 后向填充(bfill)
print(df_time.reindex(method='bfill'))

2. 数据合并与连接

2.1 combine_first:合并重叠数据集

python

# 创建两个有重叠部分的DataFrame
df1 = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, np.nan, np.nan]})
df2 = pd.DataFrame({'A': [5, 6, np.nan], 'B': [np.nan, 8, 9]})

# 合并数据集,优先使用df1的值
combined = df1.combine_first(df2)
print(combined)
2.2 align:对齐两个对象索引

python

# 创建两个索引不一致的DataFrame
df_a = pd.DataFrame({'A': [1, 2, 3]}, index=[0, 1, 2])
df_b = pd.DataFrame({'B': [4, 5, 6]}, index=[1, 2, 3])

# 对齐索引(默认使用outer join)
aligned_a, aligned_b = df_a.align(df_b)
print(aligned_a)
print(aligned_b)

# 使用inner join对齐
aligned_a, aligned_b = df_a.align(df_b, join='inner')
print(aligned_a)
print(aligned_b)

三、函数应用与向量化操作:高效处理数据

pandas 提供了多种方式将函数应用于数据,尤其是向量化操作,能显著提升处理效率。

1. 行列级函数应用

1.1 apply:沿轴应用函数

python

# 计算每列的均值
print(df.apply(lambda x: x.mean()))

# 计算每行的最大值
print(df.apply(lambda x: x.max(), axis=1))

# 自定义函数应用
def subtract_mean(x):
    return x - x.mean()

print(df.apply(subtract_mean))
1.2 插值处理缺失值

python

# 创建包含缺失值的DataFrame
df_interpolate = pd.DataFrame({
    'A': [1, np.nan, 3, np.nan, 5],
    'B': [np.nan, 2, np.nan, 4, np.nan]
})

# 使用线性插值填充缺失值
print(df_interpolate.apply(pd.Series.interpolate))

2. 向量化字符串操作

2.1 字符串大小写转换

python

# 创建包含字符串的DataFrame
df_str = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'City': ['New York', 'London', 'Paris']
})

# 转换为小写
print(df_str['Name'].str.lower())

# 转换为大写
print(df_str['City'].str.upper())
2.2 正则表达式模式匹配

python

# 检查Name列是否包含字母'b'或'B'
print(df_str['Name'].str.contains('b', case=False))

# 使用正则表达式提取城市中的第一个单词
print(df_str['City'].str.extract('(\w+)'))
2.3 字符串分割与连接

python

# 分割字符串
df_split = pd.DataFrame({'Name': ['Alice Smith', 'Bob Johnson', 'Charlie Brown']})
print(df_split['Name'].str.split(' '))

# 获取分割后的第一个元素
print(df_split['Name'].str.split(' ').str[0])

# 连接字符串
df_join = pd.DataFrame({'First': ['Alice', 'Bob', 'Charlie'], 'Last': ['Smith', 'Johnson', 'Brown']})
print(df_join['First'].str.cat(df_join['Last'], sep=' '))

四、实战案例:综合应用技巧解决实际问题

假设我们正在处理一个电商订单数据集,包含以下字段:订单 ID、客户姓名、订单金额、订单日期、商品类别。我们需要完成以下任务:

  1. 筛选出 2023 年 1 月的高价值订单(金额 > 1000)
  2. 处理客户姓名中的缺失值和格式问题
  3. 分析不同商品类别的销售分布

python

# 创建示例数据集
data = {
    'OrderID': [1, 2, 3, 4, 5, 6],
    'Customer': ['Alice Smith', 'Bob Johnson', np.nan, 'Charlie Brown', 'David Lee', 'Eve Wilson'],
    'Amount': [1200, 800, 1500, 950, 2000, 750],
    'Date': ['2023-01-15', '2023-01-20', '2023-02-05', '2023-01-30', '2023-01-10', '2023-02-15'],
    'Category': ['Electronics', 'Clothing', 'Electronics', 'Books', 'Electronics', 'Clothing']
}
df_orders = pd.DataFrame(data)

# 任务1:筛选2023年1月的高价值订单
# 转换日期格式
df_orders['Date'] = pd.to_datetime(df_orders['Date'])

# 筛选条件
high_value_orders = df_orders[
    (df_orders['Date'].dt.year == 2023) & 
    (df_orders['Date'].dt.month == 1) & 
    (df_orders['Amount'] > 1000)
]
print(high_value_orders)

# 任务2:处理客户姓名中的缺失值和格式问题
# 填充缺失值
df_orders['Customer'] = df_orders['Customer'].fillna('Unknown')

# 提取姓氏
df_orders['LastName'] = df_orders['Customer'].str.split(' ').str[-1]
print(df_orders)

# 任务3:分析不同商品类别的销售分布
category_sales = df_orders.groupby('Category')['Amount'].sum()
print(category_sales)

五、总结与建议

在日常数据处理中,掌握 pandas 的高级操作技巧能让我们事半功倍。以下是一些关键建议:

  1. 数据选择:优先使用 loc 和 iloc 进行精确索引,复杂条件筛选时利用布尔索引。
  2. 缺失值处理:根据业务需求选择合适的填充方法,combine_first 是合并重叠数据的利器。
  3. 向量化操作:避免使用循环,尽量使用 pandas 内置的向量化函数和字符串处理方法。
  4. 性能优化:处理大规模数据时,注意数据类型的选择,合理使用 apply 和向量化操作提升效率。

希望这些技巧能帮助你在数据处理中更加得心应手!如果觉得本文对你有帮助,欢迎点赞收藏,后续会分享更多 pandas 实战经验~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

佑瞻

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值