Python基础教程:强大的Pandas数据分析库

最新推荐文章于 2023-11-06 16:23:32 发布

Python蛋挞

最新推荐文章于 2023-11-06 16:23:32 发布

阅读量1.5k

点赞数

分类专栏：数据分析 Python学习文章标签： python pandas 数据分析

本文链接：https://blog.csdn.net/lyy2017175913/article/details/131763011

版权

Python学习同时被 2 个专栏收录

19 篇文章 2 订阅

订阅专栏

数据分析

3 篇文章 0 订阅

订阅专栏

Pandas是一个基于 NumPy 的非常强大的开源数据处理库，它提供了高效、灵活和丰富的数据结构和数据分析工具，当涉及到数据分析和处理时，使得数据清洗、转换、分析和可视化变得更加简单和高效。本文中，我们将学习如何使用Pandas来处理和分析数据。

首先，我们需要安装Pandas库。您可以使用以下命令来安装它：

pip install pandas

安装完成后，我们可以开始使用Pandas了。首先，让我们导入Pandas库：

import pandas as pd

Pandas 的两个主要的数据结构是 Series 和 DataFrame。Series 是一维数组，可以存储任意类型的数据；DataFrame 是二维表格数据结构，可以看做是一系列 Series 对象的集合，每个 Series 对象代表一列数据。下面我们来学习下这两种数据结构。

1.Series

Series是Pandas中的一维数据结构，类似于一维数组或列表。它可以存储任何数据类型，并且每个元素都有一个与之关联的标签，称为索引。在创建一个 Series 时，我们可以通过指定索引来为每个元素进行命名，这样一来就可以通过索引来访问和操作这些元素。在访问 Series 中的元素时，我们同样需要使用索引来指定要访问的位置。

以下是创建Series的一个示例：

import pandas as pd  
import numpy as np  
  
data = pd.Series([1, 3, 5, np.nan, 6, 8])  
# 自建索引  
data = pd.Series([1, 3, 5, np.nan, 6, 8], index)  
# 通过字典直接创建带索引的数据  
data = pd.Series({0: 1, 1: 3, 2: 5, 3: np.nan, 4: 6, 5: 8 })  
print(data)

输出结果：

0    1.0  
1    3.0  
2    5.0  
3    NaN  
4    6.0  
5    8.0  
dtype: float64

在上面的示例中，我们创建了一个包含整数和NaN值的Series。可以看到，每个元素都有一个索引。与传统的数组和列表不同，Pandas 的索引可以是任意数据类型，包括整数、字符串、日期等。索引有助于对数据进行标记和命名，使得数据的访问更加方便和直观。

在 Pandas 的 DataFrame 中，索引的作用更加重要。除了可以为每一行和每一列指定索引外，DataFrame 还支持多级索引，也就是可以为行和列同时指定多个索引。这为多维数据的处理提供了更多的灵活性和功能性。通过索引，我们可以轻松地从 DataFrame 中选择特定的行数和列数，我们可以通过指定行索引和列索引来选择任意子集的数据，也可以通过使用条件表达式来筛选满足特定条件的数据。

2.DataFrame

DataFrame是Pandas中的二维数据结构，类似于Excel表格或SQL表。它由行和列组成，并且可以存储不同类型的数据。在Pandas中，我们可以使用pd.DataFrame()函数来创建DataFrame。在这个函数中，我们可以通过参数columns来指定DataFrame的列索引，也就是字段名或列名。通过这个参数，我们可以定义每一列的名称，方便后续对数据框中的数据进行索引和操作。

如果我们想要自定义索引值，可以在pd.DataFrame()函数中使用参数index来实现。通过指定index参数，我们可以为每一行指定一个唯一的标识符，可以是字符串、整数或其他数据类型。这样一来，就可以更灵活地根据指定的索引值来获取和操作数据框中的数据。通过这种方式，我们可以根据具体的需求来定义数据框的索引，并且能够更好地满足我们对数据的处理和分析的需求。

以下是创建DataFrame的一个示例：

import pandas as pd  
  
data = {'name': ['John', 'Emma', 'Mike', 'Lisa'],  
        'age': [28, 24, 32, 35],  
        'city': ['New York', 'London', 'Paris', 'Tokyo']}  
df = pd.DataFrame(data)  
print(df)  
# 通过columns指定DataFrame的列索引  
data = [[1,'Bob', 24, 'American'],[2, 'Nancy', 23, 'Australia'],[3, 'Lili', 22, 'China'],[4, 'Leo', 27, 'M78'],[5, 'David', 24, 'moon']]  
df = pd.DataFrame(data, columns=['serial', 'name', 'age', 'from',])  
# 自定义索引  
df = pd.DataFrame(data, columns=['serial', 'name', 'age', 'from'], index=['a','b','c','d','e'])  
  
print(df)

输出结果：

   name  age      city  
0  John   28  New York  
1  Emma   24    London  
2  Mike   32     Paris  
3  Lisa   35     Tokyo  
  
   serial   name  age       from  
a       1    Bob   24   American  
b       2  Nancy   23  Australia  
c       3   Lili   22      China  
d       4    Leo   27        M78  
e       5  David   24       moon

在上面的示例中，我们使用一个字典来创建DataFrame。字典的键是列名，而字典的值是该列的数据。同样地，我们也使用了列表来创建data，这个嵌套列表中每一个子列表为 DataFrame 的一行，是不是和我们创建上面Series有点异曲同工？实际上， DataFrame 的每一行或者每一列都可以看作一个 Series。 接下来，让我们看一些常用的数据操作和分析技巧。

3. 数据操作

3.1 选择和过滤

Pandas提供了多种方法来选择和过滤数据。以下是一些常用的方法：

#选择列：可以使用列名或列索引来选择列。  
df['name']  
#选择行：可以使用行索引来选择行。  
df.loc['a']  
#过滤行：可以使用条件表达式来过滤行。  
df[df['age'] > 30]  
# 切片方式访问  
print(df.iloc[1:3])  # 访问第二行到第三行数据

输出的结果如下：

a      Bob  
b    Nancy  
c     Lili  
d      Leo  
e    David  
Name: name, dtype: object  
  
serial           1  
name           Bob  
age             24  
from      American  
Name: a, dtype: object  
  
   serial   name  age      from  
a       1    Bob   24  American  
d       4    Leo   27       M78  
e       5  David   24      moon  
  
   serial   name  age       from  
b       2  Nancy   23  Australia  
c       3   Lili   22      China

3.2 数据排序

Pandas提供了排序数据的功能。以下是一个示例：

df = df.sort_values(by='age', ascending=False)  
print(df)

在上面的示例中，我们按照年龄列对数据进行降序排序。输出结果如下：

   serial   name  age       from  
d       4    Leo   27        M78  
a       1    Bob   24   American  
e       5  David   24       moon  
b       2  Nancy   23  Australia  
c       3   Lili   22      China

3.3 数据聚合

Pandas提供了聚合数据的功能。假设我们上述的示例中增加一个为年级（grade),

data = [[1,'Bob', 24, 'American', 'high-school'],[2, 'Nancy', 23, 'Australia', 'college'],[3, 'Lili', 22, 'China', 'college'],[4, 'Leo', 27, 'M78', 'university'],[5, 'David', 24, 'moon', 'high-school']]  
  
df = pd.DataFrame(data, columns=['serial', 'name', 'age', 'from', 'grade'], index=['a','b','c','d','e'])  
# 聚合，按grade分组，并计算分组后的平均年龄  
xdf = df.groupby('grade')['age'].mean()  
print(xdf)

输出结果如下:

grade  
college        22.5  
high-school    24.0  
university     27.0  
Name: age, dtype: float64

在上面的示例中，我们按照年级列对数据进行分组，并计算每个年级的平均年龄。

3.4 数据可视化

Pandas还提供了数据可视化的功能。以下是一个示例：

# 此处需引入matplotlib  
import matplotlib.pyplot as plot  
  
df.plot(kind='bar', x='name', y='age')  
plot.show() # 显示图像

在上面的示例中，我们使用柱状图来可视化姓名和年龄数据。这只是Pandas的一小部分功能。它还提供了许多其他功能，如数据清洗、缺失值处理、数据合并、数据透视表等。

4.一些高级用法

4.1 多级索引

Pandas的多级索引功能非常强大，它允许我们在一个DataFrame中创建复杂的层次结构索引，从而更灵活地组织和分析数据。一个常见的应用场景是使用多级索引来表示时间序列数据，比如将年份和季度作为索引的两个层级。

通过创建多级索引，我们可以将数据按照不同的层级进行划分和聚合。例如，我们可以根据年份来对数据进行分组，然后在每个年份内再按照季度进行分组。这样，我们可以更方便地进行各种统计分析，比如计算每个季度的平均值、总和等。

import pandas as pd  
  
# 创建多级索引  
index = pd.MultiIndex.from_tuples([('2019', 'Q1'), ('2019', 'Q2'), ('2020', 'Q1'), ('2020', 'Q2')])  
data = pd.DataFrame({'Sales': [100, 200, 150, 250]}, index=index)  
# 查询特定季度的销售数据  
print(data.loc[('2020', 'Q1')])  
# 查询特定年份的销售数据  
print(data.loc['2020'])

输出结果如下：

Sales    150  
Name: (2020, Q1), dtype: int64  
    Sales  
Q1    150  
Q2    250

在创建多级索引时，我们可以使用Pandas的MultiIndex类来指定索引的层级和标签。通过指定层级的名称和对应的标签值，我们可以轻松地创建一个具有多级索引的DataFrame。

使用多级索引可以带来很多好处，比如提高数据的查询效率、简化数据的操作和分析等。但同时，也需要注意在使用多级索引时，要避免索引混淆和数据结构复杂度过高的问题。因此，在使用多级索引时，需要根据具体的需求和数据特点来灵活应用。

4.2 透视表

透视表是一种根据数据中的一个或多个列创建汇总表格的方法。Pandas提供了pivot_table函数，可以方便地对数据进行聚合和分析。通过pivot_table函数，我们可以指定一个或多个列作为行索引，另一个或多个列作为列索引，然后根据指定的聚合函数对数据进行汇总。这样，我们就可以快速计算出各个行和列对应的统计量，比如平均值、总和、计数等。

import pandas as pd  
  
# 创建一个包含销售数据的DataFrame  
data = pd.DataFrame({'Year': ['2019', '2019', '2020', '2020'],  
                      'Quarter': ['Q1', 'Q2', 'Q1', 'Q2'],  
                      'Product': ['A', 'B', 'A', 'B'],  
                      'Sales': [100, 200, 150, 250]})  
# 创建透视表  
pivot_table = data.pivot_table(index='Year', columns='Quarter', values='Sales', aggfunc='sum')  
# 打印透视表  
print(pivot_table)

输出如下:

Quarter   Q1   Q2  
Year  
2019     100  200  
2020     150  250

Pandas的透视表功能为我们提供了一种方便、灵活的数据聚合和分析方法，可以帮助我们更好地理解和利用数据。透视表的好处在于它提供了一种直观、简洁的方式来查看和分析数据。通过透视表，我们可以轻松地对数据进行切片、切块和筛选，从而更深入地了解数据的特征和关系。

使用透视表时，我们可以根据具体的需求选择合适的聚合函数、行列索引和筛选条件，以获取我们想要的分析结果。透视表不仅适用于单个DataFrame，还可以用于多个DataFrame的合并和分析。

4.3 时间序列分析

在处理时间序列数据方面，Pandas提供了灵活且高效的功能。它的日期和时间处理功能包括日期范围生成、日期索引、日期加减运算、日期格式化等。你可以轻松地创建日期范围，并使用这些日期作为数据的索引，便于对时间序列数据进行操作和分析。

Pandas还支持重采样操作，可以将时间序列数据从一个频率转换为另一个频率。例如，你可以将按天采样的数据转换为按月采样的数据，或者将按小时采样的数据转换为按分钟采样的数据。重采样功能允许你根据需要灵活地调整数据的粒度和频率。

 import pandas as pd  
  
# 创建一个包含时间序列数据的DataFrame  
 data = pd.DataFrame({'Date': pd.date_range(start='2020-01-01', periods=10),  
                      'Sales': [100, 200, 150, 250, 180, 120, 300, 350, 400, 250]})  
  
# 将日期列设置为索引  
 data.set_index('Date', inplace=True)  
# 计算每周销售总额  
 weekly_sales = data.resample('W').sum()  
# 打印每周销售总额  
 print(weekly_sales)

输出结果如下：

            Sales  
Date  
2020-01-05    880  
2020-01-12   1420

此外，Pandas提供了滑动窗口操作，可以在时间序列数据上执行滑动窗口统计计算。你可以定义窗口的大小和滑动的步长，并针对窗口内的数据进行汇总、聚合或其他计算操作。这对于处理时间序列数据中的移动平均值、滚动求和等任务非常有用。

5. Pandas处理Excel文件

当使用Pandas处理Excel文件时，你可以使用read_excel()函数来读取Excel数据，并将其加载到一个DataFrame中。下面是一个简单的示例：

import pandas as pd  
  
# 读取Excel文件  
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')  
  
# 显示DataFrame的前几行数据  
print(df.head())

在这个例子中，我们假设存在一个名为"data.xlsx"的Excel文件，其中包含一个名为"Sheet1"的工作表。通过调用read_excel()函数，我们将这个Excel文件读取并加载到名为df的DataFrame中。然后，我们使用head()方法显示DataFrame的前几行数据。

接下来，我们可以对读取的数据进行各种操作和处理。下面是一些常见的操作示例：

# 筛选特定列数据  
selected_columns = ['Name', 'Age']  
filtered_data = df[selected_columns]  
  
# 按条件筛选数据  
condition = df['Age'] > 25  
filtered_data = df[condition]  
  
# 数据排序  
sorted_data = df.sort_values(by='Age', ascending=False)  
  
# 添加新列  
df['Gender'] = ['Male', 'Female', 'Male', 'Female', 'Male']  
  
# 写入到新的Excel文件  
df.to_excel('new_data.xlsx', index=False)

在上述示例中，我们展示了一些常见的操作。例如，我们筛选了特定列的数据、根据条件筛选数据、对数据进行排序，并在DataFrame中添加了新的列。最后，我们使用to_excel()方法将处理后的数据写入到一个名为"new_data.xlsx"的新Excel文件中。

这只是Pandas处理Excel文件的一小部分功能示例。Pandas提供了更多强大且灵活的功能，可以帮助你根据具体需求对Excel数据进行处理、清洗和分析。

5. 总结

本文这些示例只是Pandas应用的一小部分，只是为了使我们在学习中对Pandas有初步的了解。Pandas还提供了许多其他强大的功能，使数据分析和处理更加便捷。下面是一些扩展的Pandas功能：

• 合并数据：Pandas提供了多种方法来合并不同的数据集，例如使用merge()函数按照指定的列将多个DataFrame进行合并，使用concat()函数沿着指定轴将多个DataFrame堆叠在一起，以及使用join()函数根据索引或列的值进行连接。
• 拆分数据：你可以使用split()函数将包含多个值的单个列拆分成多个列，从而使数据更加规整和易于处理。
• 过滤数据：Pandas提供了各种方法来筛选和过滤数据，如使用布尔条件进行行过滤，使用filter()函数根据列名进行列过滤，以及使用query()函数根据指定条件查询数据。
• 处理缺失值：在现实数据中，经常会出现缺失值问题。Pandas提供了灵活的方法来处理缺失值，如使用isnull()和notnull()函数检测缺失值，使用dropna()函数删除包含缺失值的行或列，以及使用fillna()函数填充缺失值。
• 处理字符串：如果你需要对文本数据进行处理，Pandas提供了一系列处理字符串的方法，如使用str.contains()函数检测包含特定子串的值，使用str.replace()函数替换字符串，以及使用str.extract()函数提取符合指定模式的字符串。

关于Python学习指南

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

包括：Python激活码+安装包、Python web开发，Python爬虫，Python数据分析，人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python！

👉Python所有方向的学习路线👈

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（全套教程文末领取）

在这里插入图片描述

👉Python学习视频600合集👈

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

在这里插入图片描述

温馨提示：篇幅有限，已打包文件夹，获取方式在：文末

👉Python70个实战练手案例&源码👈

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉Python大厂面试资料👈

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

在这里插入图片描述

👉Python副业兼职路线&方法👈

学好 Python 不论是就业还是做副业赚钱都不错，但要学会兼职接单还是要有一个学习规划。

在这里插入图片描述

👉 这份完整版的Python全套学习资料已经上传，朋友们如果需要可以扫描下方CSDN官方认证二维码或者点击链接免费领取【保证100%免费】

点击免费领取《CSDN大礼包》：Python入门到进阶资料 & 实战源码 & 兼职接单方法安全链接免费领取

Python蛋挞

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Python基础教程:强大的Pandas数据分析库

本文这些示例只是Pandas应用的一小部分，只是为了使我们在学习中对Pandas有初步的了解。Pandas还提供了许多其他强大的功能，使数据分析和处理更加便捷。下面是一些扩展的Pandas功能：• 合并数据：Pandas提供了多种方法来合并不同的数据集，例如使用merge()函数按照指定的列将多个DataFrame进行合并，使用concat()函数沿着指定轴将多个DataFrame堆叠在一起，以及使用join()函数根据索引或列的值进行连接。• 拆分数据：你可以使用split()
复制链接

扫一扫