Pandas使用手册大全

Pandas 是一个强大的 Python 数据分析库,广泛应用于数据科学、数据分析和数据处理领域。本文将详细介绍 Pandas 的基本使用方法,并通过具体例子展示其强大功能。

安装 Pandas

在使用 Pandas 之前,首先需要安装它。可以使用以下命令通过 pip 安装:

pip install pandas

基本概念

Pandas 提供了两个主要的数据结构:SeriesDataFrame

  • Series:一维数组,类似于 Python 的列表。
  • DataFrame:二维表格,类似于电子表格或 SQL 表。

创建数据结构

创建 Series

可以通过列表、字典或标量值来创建 Series。

import pandas as pd

# 通过列表创建 Series
s = pd.Series([1, 2, 3, 4, 5])
print(s)

# 通过字典创建 Series
s = pd.Series({'a': 1, 'b': 2, 'c': 3})
print(s)

# 通过标量值创建 Series
s = pd.Series(5, index=[0, 1, 2, 3])
print(s)

创建 DataFrame

可以通过字典、列表或 Numpy 数组来创建 DataFrame。

import numpy as np

# 通过字典创建 DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})
print(df)

# 通过 Numpy 数组创建 DataFrame
df = pd.DataFrame(np.random.randn(5, 3), columns=['A', 'B', 'C'])
print(df)

数据操作

查看数据

# 查看前几行数据
print(df.head())

# 查看后几行数据
print(df.tail())

# 查看数据摘要
print(df.describe())

选择数据

可以使用标签或位置来选择数据。

# 使用列标签选择数据
print(df['A'])

# 使用行标签选择数据
print(df.loc[0])

# 使用位置选择数据
print(df.iloc[0, 1])

数据筛选

可以使用条件表达式来筛选数据。

# 筛选大于 2 的数据
print(df[df['A'] > 2])

数据修改

可以修改现有数据或添加新数据。

# 修改数据
df.at[0, 'A'] = 10
print(df)

# 添加新列
df['D'] = df['A'] + df['B']
print(df)

数据清洗

处理缺失值

缺失值是数据分析中常见的问题,Pandas 提供了多种方法来处理缺失值。

# 创建包含缺失值的 DataFrame
df = pd.DataFrame({
    'A': [1, 2, np.nan],
    'B': [4, np.nan, 6],
    'C': [7, 8, 9]
})

# 删除包含缺失值的行
print(df.dropna())

# 填充缺失值
print(df.fillna(0))

数据去重

# 创建包含重复值的 DataFrame
df = pd.DataFrame({
    'A': [1, 1, 2, 2],
    'B': [3, 3, 4, 4]
})

# 删除重复值
print(df.drop_duplicates())

数据聚合

Pandas 提供了强大的数据聚合功能,可以轻松地对数据进行分组和聚合。

# 创建 DataFrame
df = pd.DataFrame({
    'A': ['foo', 'bar', 'foo', 'bar'],
    'B': [1, 2, 3, 4],
    'C': [5, 6, 7, 8]
})

# 按列 A 分组并计算列 B 的均值
print(df.groupby('A')['B'].mean())

高级功能

数据透视表

数据透视表是数据分析中常用的工具,Pandas 提供了类似 Excel 数据透视表的功能。

# 创建 DataFrame
df = pd.DataFrame({
    'A': ['foo', 'foo', 'bar', 'bar'],
    'B': ['one', 'two', 'one', 'two'],
    'C': [1, 2, 3, 4]
})

# 创建数据透视表
pivot_table = pd.pivot_table(df, values='C', index='A', columns='B', aggfunc=np.sum)
print(pivot_table)

时间序列分析

Pandas 还提供了强大的时间序列分析功能。

# 创建时间序列
date_range = pd.date_range(start='2023-01-01', end='2023-01-10')
ts = pd.Series(np.random.randn(len(date_range)), index=date_range)
print(ts)

# 重采样
print(ts.resample('D').mean())

总结

Pandas 是一个功能强大的数据分析库,通过本文介绍的基本用法和具体例子,相信你已经初步掌握了 Pandas 的使用方法。实际应用中,Pandas 提供了更多高级功能,可以进一步探索和学习,以便更高效地处理和分析数据。

  • 21
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值