简单分析pandas原生库中的函数

最新推荐文章于 2024-05-24 19:58:01 发布

白熊先生

最新推荐文章于 2024-05-24 19:58:01 发布

阅读量86

点赞数

文章标签： pandas

本文链接：https://blog.csdn.net/2302_77595648/article/details/131585324

版权

pandas

Pandas是一个Python库，用于数据处理和分析。它提供了高性能、易于使用的数据结构和数据操作工具，使得数据处理变得更加简单和高效。

Pandas的主要数据结构是DataFrame和Series：

- DataFrame类似于电子表格或数据库中的二维表格，可以存储异构的数据，具有灵活和强大的数据选择、过滤、处理和转换功能。
- Series类似于一维数组或列，由值和与之相关的索引组成，它是构建DataFrame的基本组成部分。

以下是Pandas的一些主要功能：

数据导入和导出：Pandas可以读取和写入各种数据格式，如CSV、Excel、SQL数据库等，使得数据的导入和导出变得非常方便。
数据清洗和预处理：Pandas提供了丰富的数据清洗和预处理功能，包括缺失数据处理、重复数据处理、异常值处理、数据转换等，使得数据预处理过程更加简单和可靠。
数据选择和过滤：Pandas提供了灵活的数据选择、过滤和切片操作，可以根据条件筛选和操作特定的数据，同时还支持基于标签和位置的索引。
数据操作和转换：Pandas提供了丰富的数据操作和转换功能，包括排序、合并、重塑、分组和聚合等操作，使得数据的操作和转换非常直观和简单。
时间序列分析：Pandas支持时间序列数据的处理和分析，包括时间索引的创建、重采样、滚动窗口计算和统计分析等功能。

pandas.iterrows()

在pandas中遍历行的方法。它返回一个包含每行索引和行数据的生成器（iterator）

for index, row in dataframe.iterrows():
    # 逐行处理代码

iterrows()方法，可以逐行处理DataFrame中的数据。在每次迭代中，我们可以访问每一行的索引和数据，并进行相应的操作。

min，max，mean

Pandas中使用DataFrame或Series对象时，可以使用以下内置函数对数据进行最小值（min）、最大值（max）和平均值（mean）的计算

min(): min()函数用于计算给定序列或对象中的最小值

min_score = df['成绩'].min()

max(): max()函数用于计算给定序列或对象中的最大值。

max_score = df['成绩'].max()

mean(): mean()函数用于计算给定序列或对象中的平均值。

average_score = df['成绩'].mean()

这些函数在数据分析和统计中非常常用。它们能够帮助我们了解数据的基本统计信息

pandas.loc

loc是Pandas中用于基于标签（label）进行索引和选择的属性。在DataFrame中，loc允许我们通过行和列的标签来访问和操作数据

获取数据：可以使用loc通过指定行标签和列标签来获取特定的数据

df.loc[2, '成绩']
会选择第1至第3行，以及’成绩’到’姓名’列的数据

切片操作：loc也可以用于选择特定范围的数据。

df.loc[1:3, '成绩':'姓名']
会选择第1至第3行，以及’成绩’到’姓名’列的数据

条件选择：loc还可以基于条件表达式选择特定的数据

df.loc[df['成绩'] > 80, '姓名']
会选择’成绩’大于80的行，并返回对应的’姓名’列

视图或副本：通过loc选择的数据会返回一个视图或副本，默认情况下是视图。

pandas.sort_values

Pandas中用于对DataFrame或Series对象进行排序的方法。它可根据指定的列或标签的值对数据进行排序

对DataFrame对象的排序:

df.sort_values(by, axis=0, ascending=True, inplace=False)

对Series对象的排序：

series.sort_values(axis=0, ascending=True, inplace=False)

by：指定要排序的列或标签。可以是单个列或标签的名称，也可以是列或标签名称的列表。
axis：指定排序操作的轴，0表示按行排序，1表示按列排序。
ascending：排序方式，默认为True表示升序排序，False表示降序排序。
inplace：是否在原对象上进行排序，默认为False表示返回排序后的副本，True表示在原对象上进行排序

pandas.head()

Pandas中用于获取DataFrame或Series对象的前几行数据的方法。它返回数据的前几行，其中的参数指定了要返回的行数。

对DataFrame对象使用：
```
df.head(n)
```
对Series对象使用：
```
series.head(n)
```

enumerate

Python内置的函数，用于同时迭代索引和元素。它能够返回一个迭代器，该迭代器生成一个包含索引和对应元素的元组。

enumerate(iterable, start=0)

参数说明：

iterable：要迭代的对象，例如列表、元组、字符串等。
start（可选）：指定索引的起始值，默认为0。

for i, (_, row) in enumerate(top_three.iterrows()):

for i, (_, row) in enumerate(top_three.iterrows()):：这是一个for循环语句，用于遍历top_three DataFrame的前三行数据。enumerate()函数会同时返回索引i和行数据row，而iterrows()方法会迭代DataFrame的每一行，返回索引和包含行数据的Series对象。

PIL

PIL（Python Imaging Library）是一个用于处理图像的Python库。它提供了许多图像处理功能，包括打开、保存、调整尺寸、裁剪、旋转、合并、滤镜、文本绘制等操作。

`Image`模块

Image模块提供了一个名为Image的类，用于表示图像对象

通过使用Image类，可以打开、保存、调整尺寸、裁剪、旋转、合并等各种图像操作。

image = Image.open("image.jpg")
使用Image模块中的open()方法来打开一个图像文件，并将其分配给image变量

`ImageDraw`模块

ImageDraw模块提供了一个名为Draw的类，用于生成绘图对象，可以在图像上进行各种绘图操作。

它包含了绘图操作所需的方法，比如绘制线条、矩形、椭圆、多边形、文本等。

draw = ImageDraw.Draw(image)
创建了一个Draw对象，并将其分配给draw变量。
之后，可以使用draw对象的方法在图像上绘制文本、几何形状等。

`ImageFont`模块

ImageFont模块用于处理字体相关的操作。

它提供了一个名为truetype()的方法，用于从字体文件中加载TrueType字体。加载字体后，可以将其用于绘制文本时，指定字体风格、大小等相关属性。

font = ImageFont.truetype(font_path, size=50)
可以使用它来加载字体文件，然后在绘图时指定所使用的字体。

白熊先生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
简单分析pandas原生库中的函数

它提供了许多图像处理功能，包括打开、保存、调整尺寸、裁剪、旋转、合并、滤镜、文本绘制等操作。Pandas中使用DataFrame或Series对象时，可以使用以下内置函数对数据进行最小值（min）、最大值（max）和平均值（mean）的计算。它返回数据的前几行，其中的参数指定了要返回的行数。在每次迭代中，我们可以访问每一行的索引和数据，并进行相应的操作。方法会迭代DataFrame的每一行，返回索引和包含行数据的Series对象。它包含了绘图操作所需的方法，比如绘制线条、矩形、椭圆、多边形、文本等。
复制链接

扫一扫