python pandas模块简单使用教程

#气质女孩

已于 2023-05-01 13:30:19 修改

阅读量533

点赞数 1

文章标签：经验分享

于 2023-05-01 13:23:35 首次发布

本文链接：https://blog.csdn.net/m0_72553620/article/details/130455448

版权

Pandas是Python的数据分析库，提供DataFrame数据结构用于数据分析和建模。文章介绍了如何安装Pandas，从CSV文件或列表/字典创建DataFrame，以及执行数据清洗、拆分、分组和统计等操作。示例代码展示了处理空数据、按列拆分数据、按名称分组和计算统计指标的方法。

摘要由CSDN通过智能技术生成

好的，下面是关于Python Pandas库的使用教程：

简介

Pandas是Python语言进行数据分析与建模的重要库之一，提供了用于数据分析的数据结构和函数。其中最强大的是表格类数据结构 DataFrame，从而使Python具有了类似于R语言中的数据操作能力。

安装Pandas

在使用Pandas之前，需要先安装该库。可以使用Python的包管理器pip进行安装，具体命令如下：

pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

创建DataFrame

在使用Pandas进行数据分析之前，需要先创建 DataFrame。

3.1 从CSV文件创建

可以使用 read_csv 函数读取CSV文件来创建 DataFrame。例如，以下代码从名为 student.csv 的文件中创建 DataFrame：

import pandas as pd

#excel用read_excel()
df = pd.read_csv('student.csv')

print(df)

输出结果为：

   id      name  age  gender
0   1      Jack   18    male
1   2      Rose   19  female
2   3  Jonathan   20    male

3.2 从列表或字典创建

也可以通过列表或字典来创建 DataFrame。例如，以下代码通过列表来创建 DataFrame：

data = [['Tom', 28], ['Jerry', 22], ['Alice', 18]]
df = pd.DataFrame(data, columns=['Name', 'Age'])
print(df)

输出结果为：

    Name  Age
0    Tom   28
1  Jerry   22
2  Alice   18

同样地，也可以通过字典来创建 DataFrame。例如，以下代码通过字典来创建 DataFrame：

data = {'Name': ['Tom', 'Jerry', 'Alice'], 'Age': [28, 22, 18]}
df = pd.DataFrame(data)
print(df)

输出结果为：

    Name  Age
0    Tom   28
1  Jerry   22
2  Alice   18

数据操作

使用 Pandas 进行数据分析，需要进行数据清理、数据拆分、数据分组、数据统计等操作。

4.1 数据清洗

数据清洗是指对数据进行预处理，以满足后续数据分析的需求。在这个过程中，常常需要进行空数据（null或NaN）的处理（删除或补充）、重复数据的检测和删除等操作。

如下代码演示了对 DataFrame 中空数据的删除：

df = pd.DataFrame({'name': ['Jack', 'Rose', None], 'age': [18, None, 20]})

print(df.dropna())  # 删除含有 NaN 的行

输出结果为：

   name   age
0  Jack  18.0

4.2 数据拆分

数据拆分是指将DataFrame中的数据按照指定规则拆分成多个DataFrame的操作。在数据拆分时，可以按行、列、索引等进行拆分。

如下代码演示了对 DataFrame 按列进行拆分：

df = pd.DataFrame({'name': ['Jack', 'Rose', 'Jonathan'], 'age': [18, 19, 20], 'gender': ['male', 'female', 'male']})

df1 = df[['name', 'age']]
df2 = df[['name', 'gender']]

print(df1)
print(df2)

输出结果分别为：

       name  age
0      Jack   18
1      Rose   19
2  Jonathan   20

        name  gender
0      Jack    male
1      Rose  female
2  Jonathan    male

4.3 数据分组

数据分组是指根据一定条件将 DataFrame 中的数据分成多个组，通常是为了统计和分析数据。

如下代码演示了如何对 DataFrame 进行分组：

df = pd.DataFrame({'name': ['Tom', 'Tom', 'Jerry', 'Jerry'], 'age': [23, 24, 22, 21], 'score': [85, 92, 88, 90]})

grouped = df.groupby(['name'])

for name, group in grouped:
    print(name)
    print(group)
    print('-' * 20)

result = grouped.mean()
print(result)

输出结果分别为：

Jerry
    name  age  score
2  Jerry   22     88
3  Jerry   21     90
--------------------
Tom
  name  age  score
0  Tom   23     85
1  Tom   24     92
--------------------
        age  score
name              
Jerry  21.5   89.0
Tom    23.5   88.5

4.4 数据统计

数据统计是指对统计数据、概率等方面的数据进行分析和预测。Pandas库提供了多种快捷简便的方法，例如计算平均值、方差、最大值、最小值、中位数等。

如下代码演示了如何计算 DataFrame 中某列数据的方差、最大值和中位数：

df = pd.DataFrame({'name': ['Tom', 'Jerry', 'Alice'], 'age': [23, 22, 21], 'score': [85, 90, 88]})

print(df.var())  # 方差
print(df.max())  # 最大值
print(df.median())  # 中位数

输出结果分别为：

age        0.666667
score     4.333333
dtype: float64

name     Tom
score     90
age       23
dtype: object

age      22.0
score    88.0
dtype: float64