python pandas模块简单使用教程

Pandas是Python的数据分析库,提供DataFrame数据结构用于数据分析和建模。文章介绍了如何安装Pandas,从CSV文件或列表/字典创建DataFrame,以及执行数据清洗、拆分、分组和统计等操作。示例代码展示了处理空数据、按列拆分数据、按名称分组和计算统计指标的方法。
摘要由CSDN通过智能技术生成

好的,下面是关于Python Pandas库的使用教程:

  1. 简介

Pandas是Python语言进行数据分析与建模的重要库之一,提供了用于数据分析的数据结构和函数。 其中最强大的是表格类数据结构 DataFrame,从而使Python具有了类似于R语言中的数据操作能力。

  1. 安装Pandas

在使用Pandas之前,需要先安装该库。可以使用Python的包管理器pip进行安装,具体命令如下:

pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple
  1. 创建DataFrame

在使用Pandas进行数据分析之前,需要先创建 DataFrame。

3.1 从CSV文件创建

可以使用 read_csv 函数读取CSV文件来创建 DataFrame。例如,以下代码从名为 student.csv 的文件中创建 DataFrame:

import pandas as pd

#excel用read_excel()
df = pd.read_csv('student.csv')

print(df)

输出结果为:

   id      name  age  gender
0   1      Jack   18    male
1   2      Rose   19  female
2   3  Jonathan   20    male

3.2 从列表或字典创建

也可以通过列表或字典来创建 DataFrame。例如,以下代码通过列表来创建 DataFrame:

data = [['Tom', 28], ['Jerry', 22], ['Alice', 18]]
df = pd.DataFrame(data, columns=['Name', 'Age'])
print(df)

输出结果为:

    Name  Age
0    Tom   28
1  Jerry   22
2  Alice   18

同样地,也可以通过字典来创建 DataFrame。例如,以下代码通过字典来创建 DataFrame:

data = {'Name': ['Tom', 'Jerry', 'Alice'], 'Age': [28, 22, 18]}
df = pd.DataFrame(data)
print(df)

输出结果为:

    Name  Age
0    Tom   28
1  Jerry   22
2  Alice   18
  1. 数据操作

使用 Pandas 进行数据分析,需要进行数据清理、数据拆分、数据分组、数据统计等操作。

4.1 数据清洗

数据清洗是指对数据进行预处理,以满足后续数据分析的需求。在这个过程中,常常需要进行空数据(null或NaN)的处理(删除或补充)、重复数据的检测和删除等操作。

如下代码演示了对 DataFrame 中空数据的删除:

df = pd.DataFrame({'name': ['Jack', 'Rose', None], 'age': [18, None, 20]})

print(df.dropna())  # 删除含有 NaN 的行

输出结果为:

   name   age
0  Jack  18.0

4.2 数据拆分

数据拆分是指将DataFrame中的数据按照指定规则拆分成多个DataFrame的操作。在数据拆分时,可以按行、列、索引等进行拆分。

如下代码演示了对 DataFrame 按列进行拆分:

df = pd.DataFrame({'name': ['Jack', 'Rose', 'Jonathan'], 'age': [18, 19, 20], 'gender': ['male', 'female', 'male']})

df1 = df[['name', 'age']]
df2 = df[['name', 'gender']]

print(df1)
print(df2)

输出结果分别为:

       name  age
0      Jack   18
1      Rose   19
2  Jonathan   20

        name  gender
0      Jack    male
1      Rose  female
2  Jonathan    male

4.3 数据分组

数据分组是指根据一定条件将 DataFrame 中的数据分成多个组,通常是为了统计和分析数据。

如下代码演示了如何对 DataFrame 进行分组:

df = pd.DataFrame({'name': ['Tom', 'Tom', 'Jerry', 'Jerry'], 'age': [23, 24, 22, 21], 'score': [85, 92, 88, 90]})

grouped = df.groupby(['name'])

for name, group in grouped:
    print(name)
    print(group)
    print('-' * 20)

result = grouped.mean()
print(result)

输出结果分别为:

Jerry
    name  age  score
2  Jerry   22     88
3  Jerry   21     90
--------------------
Tom
  name  age  score
0  Tom   23     85
1  Tom   24     92
--------------------
        age  score
name              
Jerry  21.5   89.0
Tom    23.5   88.5

4.4 数据统计

数据统计是指对统计数据、概率等方面的数据进行分析和预测。Pandas库提供了多种快捷简便的方法,例如计算平均值、方差、最大值、最小值、中位数等。

如下代码演示了如何计算 DataFrame 中某列数据的方差、最大值和中位数:

df = pd.DataFrame({'name': ['Tom', 'Jerry', 'Alice'], 'age': [23, 22, 21], 'score': [85, 90, 88]})

print(df.var())  # 方差
print(df.max())  # 最大值
print(df.median())  # 中位数

输出结果分别为:

age        0.666667
score     4.333333
dtype: float64

name     Tom
score     90
age       23
dtype: object

age      22.0
score    88.0
dtype: float64
  1. 结束语

以上是关于 Pandas 库的教程,Pandas是 Python 进行数据分析和建模的重要库之一,具有多种数据结构和函数。 如果你想要快速高效地进行数据处理和分析,Pandas 库将是你的不二之选。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值