Pandas库使用（四）：DataFrame进阶操作

爬虫俗手小马达

于 2024-09-30 10:40:38 发布

阅读量62

点赞数 2

文章标签： pandas

本文链接：https://blog.csdn.net/m0_55893050/article/details/142651647

版权

Pandas库使用（四）：DataFrame进阶操作

文章目录

- - Pandas库使用（四）：DataFrame进阶操作

1. 数据合并

在数据处理中，通常会遇到需要将多个DataFrame进行合并的情况。Pandas提供了concat()、merge()和join()三种方式来实现数据的合并。

（1）concat()

concat()函数用于沿着指定轴（axis=0或axis=1）将两个或多个DataFrame合并。

import pandas as pd

# 创建两个DataFrame
df1 = pd.DataFrame({'Name': ['Alice', 'Bob'], 'Age': [25, 30]})
df2 = pd.DataFrame({'Name': ['Tom', 'Jerry'], 'Age': [22, 24]})

# 行合并（垂直合并）
result = pd.concat([df1, df2], axis=0)
print(result)

# 列合并（水平合并）
result = pd.concat([df1, df2], axis=1)
print(result)

（2）merge()

merge()函数类似于SQL的JOIN操作，支持多种连接方式（inner、outer、left、right）。

# 创建两个DataFrame
df1 = pd.DataFrame({'ID': [1, 2, 3], 'Name': ['Alice', 'Bob', 'Tom']})
df2 = pd.DataFrame({'ID': [2, 3, 4], 'Age': [30, 35, 40]})

# Inner Join（交集）
result = pd.merge(df1, df2, on='ID', how='inner')
print(result)

# Left Join（左连接）
result = pd.merge(df1, df2, on='ID', how='left')
print(result)

（3）join()

join()函数用于基于索引的合并。它是merge()的简化版本，适用于需要根据索引合并的场景。

df1 = pd.DataFrame({'Age': [25, 30]}, index=['Alice', 'Bob'])
df2 = pd.DataFrame({'Salary': [3000, 4000]}, index=['Alice', 'Tom'])

# 基于索引进行合并
result = df1.join(df2, how='inner')
print(result)

2. 数据分组与聚合

groupby()函数可以将数据根据某一列或多列进行分组，然后对每个分组进行聚合操作（如求和、计数、求均值等）。

# 创建DataFrame
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Tom', 'Jerry'],
    'Gender': ['F', 'M', 'M', 'M'],
    'Score': [85, 90, 78, 88]
})

# 按性别分组并计算平均分
grouped = df.groupby('Gender')['Score'].mean()
print(grouped)

# 同时进行多个聚合操作
agg_result = df.groupby('Gender').agg({'Score': ['mean', 'max']})
print(agg_result)

3. 缺失值处理进阶

处理缺失值是数据分析中不可避免的一步，Pandas提供了灵活的方法来处理这些数据。

（1）填充缺失值

可以使用fillna()函数填充缺失值。除了使用常量填充外，还可以选择使用前一行或后一行的数据来填充。

# 创建包含缺失值的DataFrame
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', None],
    'Score': [85, 90, None]
})

# 使用0填充缺失值
df_filled = df.fillna(0)

# 使用前一个有效值填充
df_filled_ffill = df.fillna(method='ffill')

print(df_filled)
print(df_filled_ffill)

（2）插值法

interpolate()函数可以使用线性插值等方法填充缺失值，这在处理时间序列数据时非常有用。

# 线性插值
df = pd.DataFrame({'Value': [1, None, 3, None, 5]})
df_interpolated = df.interpolate()
print(df_interpolated)

4. 数据变换

除了基本的加减乘除操作外，Pandas还提供了对数据进行变换的多种方法，如apply()、applymap()、map()等。

（1）apply()

apply()可以对DataFrame或Series中的每一行或每一列应用自定义函数。

# 创建DataFrame
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Tom'],
    'Score': [85, 90, 78]
})

# 对每个分数加10分
df['New_Score'] = df['Score'].apply(lambda x: x + 10)
print(df)

（2）applymap()

applymap()函数用于对DataFrame中的每个元素应用自定义函数。

df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6]
})

# 对DataFrame中的每个元素平方
df_squared = df.applymap(lambda x: x ** 2)
print(df_squared)

（3）map()

map()函数常用于对Series中的数据进行元素级别的映射转换。

# 创建Series
s = pd.Series([1, 2, 3, 4])

# 将每个数字映射为其平方
s_mapped = s.map(lambda x: x ** 2)
print(s_mapped)

5. 数据透视表与交叉表

pivot_table()和crosstab()是进行多维数据分析的常用工具。

（1）pivot_table()

pivot_table()类似于Excel中的数据透视表，可以通过分组、聚合、重新排列数据来进行多维分析。

# 创建DataFrame
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Tom', 'Jerry'],
    'Gender': ['F', 'M', 'M', 'M'],
    'Score': [85, 90, 78, 88]
})

# 创建数据透视表
pivot = df.pivot_table(values='Score', index='Gender', aggfunc='mean')
print(pivot)

（2）crosstab()

crosstab()用于计算分组频率表，可以用于显示两个分类变量之间的关系。

# 创建交叉表
crosstab = pd.crosstab(df['Name'], df['Gender'])
print(crosstab)

爬虫俗手小马达

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫