Python学习：Pandas库使用（一）

爬虫俗手小马达

于 2024-09-27 11:07:02 发布

阅读量445

点赞数 15

文章标签： python pandas 数据分析

本文链接：https://blog.csdn.net/m0_55893050/article/details/142588843

版权

Pandas是一个用于数据处理和分析的开源Python库，广泛应用于数据科学、数据分析和机器学习等领域。其核心数据结构是Series和DataFrame，旨在提供灵活、直观的数据操作功能，帮助用户高效地处理和分析数据。

来源

Pandas库最初由Wes McKinney在2008年创建，旨在解决金融领域的数据分析需求。随着数据科学的快速发展，Pandas逐渐发展成为Python生态系统中最重要的数据分析库之一。其名称“Pandas”来源于“Panel Data”，指的是用于经济学和社会科学中分析多维数据的技术。Pandas库现已成为数据科学家的重要工具，社区也不断壮大，吸引了众多贡献者和用户。

用途

Pandas主要用于数据清理、数据转换、数据聚合和数据分析。它可以方便地处理缺失数据、合并数据集、进行时间序列分析、统计计算以及数据可视化。Pandas的灵活性和高效性使其成为数据科学工作流中的核心部分。具体用途包括：

数据导入与导出：Pandas支持从CSV、Excel、SQL数据库、JSON等多种格式导入和导出数据。
数据清理：处理缺失值、去重、类型转换等操作。
数据操作：通过过滤、选择和重塑数据来获取所需信息。
数据聚合与分组：对数据进行分组并计算汇总统计信息。
时间序列分析：处理和分析时间序列数据的强大功能。

使用方法

Pandas库的使用方法相对简单，用户需要先安装Pandas库。可以通过以下命令安装：

pip install pandas

安装完成后，用户可以在Python脚本中导入Pandas库，并开始使用其功能。常用的导入方式是：

import pandas as pd

示例代码

下面是一些Pandas的基本用法示例，包括数据创建、导入、操作和分析。

1. 创建数据

可以使用Pandas的DataFrame和Series创建简单的数据结构。

import pandas as pd

# 创建Series
data = pd.Series([1, 2, 3, 4, 5], name='numbers')
print(data)

# 创建DataFrame
data_dict = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data_dict)
print(df)

2. 数据导入

从CSV文件导入数据：

# 从CSV文件导入数据
df = pd.read_csv('data.csv')
print(df.head())  # 显示前五行

3. 数据清理

处理缺失值和重复数据：

# 处理缺失值
df.fillna(0, inplace=True)  # 将缺失值填充为0
df.drop_duplicates(inplace=True)  # 删除重复行

4. 数据选择与过滤

通过条件选择数据：

# 选择年龄大于30的记录
filtered_data = df[df['age'] > 30]
print(filtered_data)

5. 数据分组与聚合

对数据进行分组并计算汇总统计信息：

# 按城市分组，并计算每个城市的平均年龄
grouped_data = df.groupby('city')['age'].mean()
print(grouped_data)

6. 时间序列分析

处理时间序列数据：

# 创建时间序列
date_range = pd.date_range(start='2024-01-01', end='2024-01-10')
ts = pd.Series(range(len(date_range)), index=date_range)
print(ts)

# 数据重采样
ts_resampled = ts.resample('2D').sum()  # 每两天汇总
print(ts_resampled)

7. 数据导出

将处理后的数据导出到CSV文件：

# 导出数据到CSV文件
df.to_csv('output.csv', index=False)

Pandas库提供了强大的数据处理功能，其丰富的API使得数据分析变得更加简单和高效。无论是数据清洗、数据分析还是数据可视化，Pandas都能满足大多数数据科学家的需求。通过熟练掌握Pandas，用户能够更轻松地进行数据驱动的决策和分析。

爬虫俗手小马达

关注

15
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫