Pandas：提供了快速、灵活和表达式丰富的数据结构。

Jr_l

已于 2024-08-14 13:28:18 修改

阅读量487

点赞数 17

分类专栏： # 数据科学文章标签： python pandas

于 2024-08-14 10:05:15 首次发布

本文链接：https://blog.csdn.net/LS_Ai/article/details/141183019

版权

数据科学专栏收录该内容

2 篇文章 0 订阅

订阅专栏

引言

Pandas是Python中最为广泛使用的数据分析和操作库之一，特别适用于处理结构化数据。该库的名称源自“Panel Data”的缩写，意为面板数据或多维数据。Pandas基于NumPy构建，继承了其高效的数组计算能力，并在此基础上进一步扩展，提供了更高层次的数据结构和数据分析工具，如Series和DataFrame。这些数据结构旨在使处理“关系”或“标签”数据的工作变得更加简单、直观，并且具有强大的表达能力。

Pandas的目标是提供快速、灵活和表达式丰富的数据结构，以便于数据的清理、转换、聚合和可视化。无论是数据科学家还是分析师，Pandas都能有效简化他们的日常工作，使得大规模数据的处理和分析变得更加高效。Pandas特别适合处理来自CSV、Excel、SQL数据库、HDF5等多种格式的文件，能够轻松应对从数百行到数百万行的数据。

核心特性

1. 数据结构

Series：Series是一种类似于一维数组的对象，它由一组数据和与之相关的标签（索引）组成。Series的行为类似于NumPy的数组，但与NumPy数组不同，Series对象可以存储任何类型的数据，包括整数、浮点数、字符串、对象等。Series的索引不仅可以是整数，还可以是任何其他类型（如字符串、时间戳），这使得数据的访问更加灵活和直观。
DataFrame：DataFrame是Pandas中最重要的数据结构，它是一个类似于电子表格或SQL表格的二维表，由行和列组成。DataFrame的每一列都是一个Series对象，因此可以存储不同的数据类型（如整数、浮点数、字符串等）。DataFrame提供了丰富的方法和函数，用于数据的清理、转换、过滤和聚合，极大地方便了数据分析的流程。
Panel：尽管Panel已在Pandas的最新版本中被废弃（从Pandas 1.0开始），但它曾是处理三维数据的主要数据结构。现在推荐使用多级索引的DataFrame或更高效的xarray库来处理多维数据。

2. 数据操作与分析

数据加载与存储：Pandas支持从多种文件格式中加载数据，包括CSV、Excel、SQL、JSON、HTML等。相应地，Pandas也可以将数据保存为这些格式的文件。通过简单的函数调用，用户可以快速读取或写入不同格式的数据文件。
数据选择与过滤：Pandas提供了多种方法来选择和过滤数据，例如通过标签、位置或布尔条件来选择数据子集。与传统方法相比，这些操作在Pandas中变得更加简洁和高效。
数据清理与转换：数据清理是数据分析中的重要步骤，Pandas为此提供了丰富的工具，如处理缺失数据（填充或删除NaN值）、数据类型转换、重复数据删除、字符串操作等。通过这些工具，用户可以轻松将原始数据转换为可分析的格式。
数据聚合与分组操作：Pandas的groupby功能允许用户根据某个或多个列对数据进行分组，并在分组的基础上进行聚合、转换或过滤操作。这在数据分析中尤为重要，因为它能够快速计算分组后的统计量，如平均值、总和、最大值、最小值等。
时间序列处理：Pandas对时间序列数据的处理提供了专门的支持，包括时间戳和日期范围的生成、重采样、时区转换、移动窗口计算等。这使得Pandas成为金融数据分析和其他涉及时间序列数据的任务中的利器。
数据可视化：虽然Pandas本身不是一个可视化库，但它与Matplotlib库紧密集成，提供了便捷的数据可视化功能。用户可以通过简单的命令直接从DataFrame或Series对象生成各种图表，如折线图、柱状图、散点图等。

安装与基本使用

安装Pandas

Pandas可以通过Python的包管理工具pip轻松安装。建议在虚拟环境中安装Pandas，以避免与其他项目的依赖冲突。

pip install pandas

安装成功后，可以通过以下命令导入Pandas并查看其版本号：

import pandas as pd
print(pd.__version__)

基本使用示例

以下是一些Pandas的基本使用示例，展示了如何创建Series和DataFrame对象，并进行常见的数据操作。

import pandas as pd

# 创建一个Series
data = pd.Series([1, 3, 5, 7, 9])
print(data)

# 创建一个DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8],
    'C': ['foo', 'bar', 'baz', 'qux']
})
print(df)

# 选择和过滤数据
print(df['A'])  # 选择列A
print(df[df['B'] > 6])  # 过滤B列大于6的行

# 缺失值处理
df2 = pd.DataFrame({
    'A': [1, 2, None, 4],
    'B': [5, None, 7, 8]
})
print(df2.fillna(0))  # 用0填充缺失值

# 数据聚合
grouped = df.groupby('C').sum()
print(grouped)

案例一：数据清洗与转换

假设你有一个CSV文件，其中包含了一些员工信息，但数据中存在缺失值、重复记录以及不一致的数据格式。你的目标是清洗这些数据，使其适合进一步分析。

import pandas as pd  
  
# 加载数据  
data = pd.read_csv('employees.csv')  
  
# 查看数据概况  
print(data.head())  
  
# 处理缺失值  
# 假设'email'列中有缺失值，我们用'Unknown'填充  
data['email'].fillna('Unknown', inplace=True)  
  
# 删除重复行  
data.drop_duplicates(inplace=True)  
  
# 数据类型转换  
# 假设'hire_date'列原本是字符串类型，我们需要将其转换为日期类型  
data['hire_date'] = pd.to_datetime(data['hire_date'])  
  
# 字符串操作：假设我们需要从'email'列中提取域名  
data['domain'] = data['email'].apply(lambda x: x.split('@')[-1] if '@' in x else 'N/A')  
  
# 查看清洗后的数据  
print(data.head())

案例二：数据聚合与分组

现在，你想根据员工的部门来聚合数据，计算每个部门的平均薪资和总人数。

# 假设'department'和'salary'是DataFrame中的列  
grouped = data.groupby('department').agg({  
    'salary': 'mean',  # 计算平均薪资  
    'email': 'nunique'  # 计算每个部门的唯一email数，作为总人数的近似（假设每个员工一个email）  
}).rename(columns={'email': 'total_employees'})  
  
print(grouped)

案例三：时间序列分析

如果你的数据中包含了时间序列信息（如销售数据、股票价格等），Pandas的时间序列功能将非常有用。

# 假设你有一个包含日期和销售额的DataFrame  
sales_data = pd.DataFrame({  
    'date': pd.date_range(start='2023-01-01', periods=100, freq='D'),  
    'sales': np.random.randint(100, 1000, 100)  
})  
  
# 设置日期为索引  
sales_data.set_index('date', inplace=True)  
  
# 计算每日销售额的滚动平均值（例如，7天滚动平均）  
sales_data['rolling_avg'] = sales_data['sales'].rolling(window=7).mean()  
  
# 绘制原始销售额和滚动平均销售额  
import matplotlib.pyplot as plt  
  
sales_data['sales'].plot(label='Daily Sales')  
sales_data['rolling_avg'].plot(label='7-Day Rolling Average', linestyle='--')  
plt.legend()  
plt.show()

案例四：数据透视表

Pandas的pivot_table函数是进行数据汇总和重新组织的强大工具，类似于Excel中的数据透视表。

# 假设我们想根据部门和年份来汇总销售额  
# 假设'department', 'year'和'sales'是DataFrame中的列  
pivot_table = data.pivot_table(values='sales', index='department', columns='year', aggfunc='sum')  
  
print(pivot_table)

结论

Pandas作为一个基于NumPy的数据分析和操作库，极大地丰富了Python在数据科学领域的功能。它的快速、灵活和表达式丰富的数据结构，以及强大的数据处理和分析工具，使得Pandas成为了处理结构化数据的事实标准。无论是进行简单的数据清理任务，还是复杂的数据分析和建模，Pandas都能为开发者提供高效且易用的解决方案。掌握Pandas是成为数据科学家和数据分析师的重要一步，它将显著提升数据处理的效率和分析的深度。