pandas 数据操作与转换高级技巧实战：从选择过滤到向量化处理-CSDN博客

本文链接：https://blog.csdn.net/The_Thieves/article/details/148010924

在日常数据处理工作中，我们经常会遇到数据筛选、清洗、合并和转换等操作。这些看似基础的工作，却往往因为数据规模大、结构复杂而变得棘手。pandas 作为数据处理的核心工具，提供了一套强大而灵活的操作方法。本文将结合实际案例，深入探讨 pandas 中数据选择、清洗、合并和向量化操作的高级技巧，帮助你更高效地处理复杂数据。

一、数据选择与布尔操作：精准定位目标数据

在处理大型数据集时，如何快速准确地筛选出所需数据是关键。pandas 提供了多种数据选择方式，让我们可以基于标签、位置或条件进行灵活筛选。

1. 基于标签与位置索引

1.1 基本切片与列选择

python

import pandas as pd

# 创建示例DataFrame
data = {
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8],
    'C': [9, 10, 11, 12]
}
df = pd.DataFrame(data)

# 选择前两行
print(df[:2])

# 选择列A
print(df['A'])

1.2 loc 与 iloc：精确索引

loc：基于标签的索引
iloc：基于位置的索引

python

# 使用loc选择标签为0的行和列A
print(df.loc[0, 'A'])

# 使用iloc选择第一行和第一列
print(df.iloc[0, 0])

# 使用loc进行切片（包含结束标签）
print(df.loc[0:2, 'A':'B'])

# 使用iloc进行切片（不包含结束位置）
print(df.iloc[0:2, 0:2])

2. 布尔索引与过滤

2.1 布尔矩阵生成

python

# 创建第二个DataFrame用于比较
df2 = pd.DataFrame({
    'A': [2, 1, 3, 4],
    'B': [5, 7, 6, 8],
    'C': [10, 9, 12, 11]
})

# 生成布尔矩阵（比较df是否大于df2）
bool_matrix = df.gt(df2)
print(bool_matrix)

# 使用布尔矩阵过滤数据
print(df[bool_matrix])  # 大于df2的元素保留，其他为NaN

2.2 布尔约简操作

python

# 检查是否所有元素都大于0
print((df > 0).all())  # 按列检查
print((df > 0).all().all())  # 整个DataFrame检查

# 检查是否存在任何元素大于3
print((df > 3).any())

2.3 复合条件过滤

python

# 筛选列A大于2且列B小于8的行
print(df[(df['A'] > 2) & (df['B'] < 8)])

# 筛选列A等于1或列C大于10的行
print(df[(df['A'] == 1) | (df['C'] > 10)])

二、数据清洗与填充处理：让数据变得整洁

现实中的数据往往存在缺失值、重复值或不一致的情况，数据清洗是数据分析前必不可少的步骤。

1. 缺失值处理

1.1 算术运算中的缺失值填充

python

# 创建包含缺失值的DataFrame
df_missing = pd.DataFrame({
    'A': [1, np.nan, 3],
    'B': [4, 5, np.nan]
})

# 加法运算，使用fill_value参数填充缺失值
result = df_missing.add(df, fill_value=0)
print(result)

1.2 前后向填充

python

# 创建时间序列数据
dates = pd.date_range('20230101', periods=5)
df_time = pd.DataFrame({'A': [1, np.nan, np.nan, 4, np.nan]}, index=dates)

# 前向填充（ffill）
print(df_time.reindex(method='ffill'))

# 后向填充（bfill）
print(df_time.reindex(method='bfill'))

2. 数据合并与连接

2.1 combine_first：合并重叠数据集

python

# 创建两个有重叠部分的DataFrame
df1 = pd.DataFrame({'A': [1, np.nan, 3], 'B': [4, np.nan, np.nan]})
df2 = pd.DataFrame({'A': [5, 6, np.nan], 'B': [np.nan, 8, 9]})

# 合并数据集，优先使用df1的值
combined = df1.combine_first(df2)
print(combined)

2.2 align：对齐两个对象索引

python

# 创建两个索引不一致的DataFrame
df_a = pd.DataFrame({'A': [1, 2, 3]}, index=[0, 1, 2])
df_b = pd.DataFrame({'B': [4, 5, 6]}, index=[1, 2, 3])

# 对齐索引（默认使用outer join）
aligned_a, aligned_b = df_a.align(df_b)
print(aligned_a)
print(aligned_b)

# 使用inner join对齐
aligned_a, aligned_b = df_a.align(df_b, join='inner')
print(aligned_a)
print(aligned_b)

三、函数应用与向量化操作：高效处理数据

pandas 提供了多种方式将函数应用于数据，尤其是向量化操作，能显著提升处理效率。

1. 行列级函数应用

1.1 apply：沿轴应用函数

python

# 计算每列的均值
print(df.apply(lambda x: x.mean()))

# 计算每行的最大值
print(df.apply(lambda x: x.max(), axis=1))

# 自定义函数应用
def subtract_mean(x):
    return x - x.mean()

print(df.apply(subtract_mean))

1.2 插值处理缺失值

python

# 创建包含缺失值的DataFrame
df_interpolate = pd.DataFrame({
    'A': [1, np.nan, 3, np.nan, 5],
    'B': [np.nan, 2, np.nan, 4, np.nan]
})

# 使用线性插值填充缺失值
print(df_interpolate.apply(pd.Series.interpolate))

2. 向量化字符串操作

2.1 字符串大小写转换

python

# 创建包含字符串的DataFrame
df_str = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'City': ['New York', 'London', 'Paris']
})

# 转换为小写
print(df_str['Name'].str.lower())

# 转换为大写
print(df_str['City'].str.upper())

2.2 正则表达式模式匹配

python

# 检查Name列是否包含字母'b'或'B'
print(df_str['Name'].str.contains('b', case=False))

# 使用正则表达式提取城市中的第一个单词
print(df_str['City'].str.extract('(\w+)'))

2.3 字符串分割与连接

python

# 分割字符串
df_split = pd.DataFrame({'Name': ['Alice Smith', 'Bob Johnson', 'Charlie Brown']})
print(df_split['Name'].str.split(' '))

# 获取分割后的第一个元素
print(df_split['Name'].str.split(' ').str[0])

# 连接字符串
df_join = pd.DataFrame({'First': ['Alice', 'Bob', 'Charlie'], 'Last': ['Smith', 'Johnson', 'Brown']})
print(df_join['First'].str.cat(df_join['Last'], sep=' '))

四、实战案例：综合应用技巧解决实际问题

假设我们正在处理一个电商订单数据集，包含以下字段：订单 ID、客户姓名、订单金额、订单日期、商品类别。我们需要完成以下任务：

筛选出 2023 年 1 月的高价值订单（金额 > 1000）
处理客户姓名中的缺失值和格式问题
分析不同商品类别的销售分布

python

# 创建示例数据集
data = {
    'OrderID': [1, 2, 3, 4, 5, 6],
    'Customer': ['Alice Smith', 'Bob Johnson', np.nan, 'Charlie Brown', 'David Lee', 'Eve Wilson'],
    'Amount': [1200, 800, 1500, 950, 2000, 750],
    'Date': ['2023-01-15', '2023-01-20', '2023-02-05', '2023-01-30', '2023-01-10', '2023-02-15'],
    'Category': ['Electronics', 'Clothing', 'Electronics', 'Books', 'Electronics', 'Clothing']
}
df_orders = pd.DataFrame(data)

# 任务1：筛选2023年1月的高价值订单
# 转换日期格式
df_orders['Date'] = pd.to_datetime(df_orders['Date'])

# 筛选条件
high_value_orders = df_orders[
    (df_orders['Date'].dt.year == 2023) & 
    (df_orders['Date'].dt.month == 1) & 
    (df_orders['Amount'] > 1000)
]
print(high_value_orders)

# 任务2：处理客户姓名中的缺失值和格式问题
# 填充缺失值
df_orders['Customer'] = df_orders['Customer'].fillna('Unknown')

# 提取姓氏
df_orders['LastName'] = df_orders['Customer'].str.split(' ').str[-1]
print(df_orders)

# 任务3：分析不同商品类别的销售分布
category_sales = df_orders.groupby('Category')['Amount'].sum()
print(category_sales)