Pandas 基础教程

Pandas 是 Python 中用于数据分析和数据处理的强大库。它提供了两种主要的数据结构:Series 和 DataFrame,以及用于操作这些数据结构的工具。本教程将介绍 Pandas 的安装、基本用法、数据清洗以及一些高级功能。

一、引言

Pandas 是 Python 社区中最常用的用于数据处理和分析的库之一。它提供了高效的数据结构 Series 和 DataFrame,以及用于数据清洗、处理、分析和可视化的一系列工具。

二、安装 Pandas

通常情况下,安装 Anaconda 或者 Miniconda 就可以直接使用 Pandas。如果没有安装这些,可以通过 pip 或 conda 安装 Pandas:

 

Bash

深色版本

1pip install pandas

或者使用 conda:

 

Bash

深色版本

1conda install pandas

三、基本用法

一旦安装完成,就可以开始使用 Pandas 了。以下是一些基本的例子。

3.1 导入库

 

Python

深色版本

1import pandas as pd

3.2 创建 Series

 

Python

深色版本

1# 创建一个 Series
2s = pd.Series([1, 3, 5, np.nan, 6, 8])
3
4# 创建一个带索引的 Series
5dates = pd.date_range('20230101', periods=6)
6df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
7print(df['A'])

3.3 创建 DataFrame

 

Python

深色版本

1# 使用字典创建 DataFrame
2data = {'A': 1.,
3        'B': pd.Timestamp('20130102'),
4        'C': pd.Series(1, index=list(range(4)), dtype='float32'),
5        'D': np.array([3] * 4, dtype='int32'),
6        'E': pd.Categorical(["test", "train", "test", "train"]),
7        'F': 'foo'}
8df = pd.DataFrame(data)
9print(df)

3.4 查看 DataFrame 的基本信息

 

Python

深色版本

1# 查看 DataFrame 的基本信息
2print(df.head())  # 显示前几行
3print(df.tail(3))  # 显示最后几行
4print(df.index)  # 显示索引
5print(df.columns)  # 显示列名
6print(df.dtypes)  # 显示各列的数据类型
7print(df.describe())  # 显示描述性统计信息

四、读取与保存数据

Pandas 提供了方便的方法来读取和保存数据文件。

4.1 读取 CSV 文件

 

Python

深色版本

1# 读取 CSV 文件
2df = pd.read_csv('path/to/file.csv')
3
4# 查看读取的数据
5print(df.head())

4.2 保存到 CSV 文件

 

Python

深色版本

1# 保存 DataFrame 到 CSV 文件
2df.to_csv('path/to/output.csv', index=False)

五、数据清洗

Pandas 提供了许多工具来清洗数据。

5.1 处理缺失值

 

Python

深色版本

1# 查找缺失值
2print(df.isnull())
3
4# 删除含有缺失值的行
5df.dropna(inplace=True)
6
7# 填充缺失值
8df.fillna(value=5, inplace=True)

5.2 重复数据

 

Python

深色版本

1# 查找重复数据
2print(df.duplicated())
3
4# 删除重复数据
5df.drop_duplicates(inplace=True)

六、数据操作

Pandas 提供了丰富的数据操作功能。

6.1 排序数据

 

Python

深色版本

1# 按列排序
2sorted_df = df.sort_values(by='A')
3print(sorted_df)

6.2 选择数据

 

Python

深色版本

1# 选择单列
2print(df['A'])
3
4# 选择多列
5print(df[['A', 'B']])
6
7# 选择行
8print(df[df.A > 0])
9
10# 选择行和列
11print(df.loc[dates[0]])  # 选择第一行
12print(df.loc[:, ['A', 'B']])  # 选择所有行的 A 和 B 列

6.3 数据聚合

 

Python

深色版本

1# 使用 groupby 进行聚合
2grouped = df.groupby(['A']).sum()
3print(grouped)

6.4 数据合并

 

Python

深色版本

1# 创建新的 DataFrame
2df2 = df.copy()
3df2['E'] = ['one', 'one', 'two', 'three', 'four', 'three']
4
5# 使用 concat 进行纵向合并
6concatenated = pd.concat([df, df2], ignore_index=True)
7print(concatenated)
8
9# 使用 merge 进行横向合并
10merged = pd.merge(df, df2, on='E')
11print(merged)

七、结论

通过以上步骤,您已经掌握了 Pandas 的基本用法。Pandas 是进行数据处理和分析的基础,熟悉 Pandas 的操作将为您后续的数据分析工作打下坚实的基础。

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

DeepReinforce

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值