简单分析pandas原生库中的函数

目录

pandas

pandas.iterrows()

min,max,mean

pandas.loc

pandas.sort_values

pandas.head()

enumerate

PIL

Image模块

ImageDraw模块

ImageFont模块


pandas

Pandas是一个Python库,用于数据处理和分析。它提供了高性能、易于使用的数据结构和数据操作工具,使得数据处理变得更加简单和高效。

Pandas的主要数据结构是DataFrame和Series:

  • - DataFrame类似于电子表格或数据库中的二维表格,可以存储异构的数据,具有灵活和强大的数据选择、过滤、处理和转换功能。
  • - Series类似于一维数组或列,由值和与之相关的索引组成,它是构建DataFrame的基本组成部分。

以下是Pandas的一些主要功能:

  1.  数据导入和导出:Pandas可以读取和写入各种数据格式,如CSV、Excel、SQL数据库等,使得数据的导入和导出变得非常方便。
  2.  数据清洗和预处理:Pandas提供了丰富的数据清洗和预处理功能,包括缺失数据处理、重复数据处理、异常值处理、数据转换等,使得数据预处理过程更加简单和可靠。
  3.  数据选择和过滤:Pandas提供了灵活的数据选择、过滤和切片操作,可以根据条件筛选和操作特定的数据,同时还支持基于标签和位置的索引。
  4. 数据操作和转换:Pandas提供了丰富的数据操作和转换功能,包括排序、合并、重塑、分组和聚合等操作,使得数据的操作和转换非常直观和简单。
  5. 时间序列分析:Pandas支持时间序列数据的处理和分析,包括时间索引的创建、重采样、滚动窗口计算和统计分析等功能。

pandas.iterrows()

在pandas中遍历行的方法。它返回一个包含每行索引和行数据的生成器(iterator)

for index, row in dataframe.iterrows():
    # 逐行处理代码

iterrows()方法,可以逐行处理DataFrame中的数据。在每次迭代中,我们可以访问每一行的索引和数据,并进行相应的操作。

min,max,mean

Pandas中使用DataFrame或Series对象时,可以使用以下内置函数对数据进行最小值(min)、最大值(max)和平均值(mean)的计算

min()min()函数用于计算给定序列或对象中的最小值

min_score = df['成绩'].min()

max()max()函数用于计算给定序列或对象中的最大值。

max_score = df['成绩'].max()

mean()mean()函数用于计算给定序列或对象中的平均值。

average_score = df['成绩'].mean()

这些函数在数据分析和统计中非常常用。它们能够帮助我们了解数据的基本统计信息

pandas.loc

loc是Pandas中用于基于标签(label)进行索引和选择的属性。在DataFrame中,loc允许我们通过行和列的标签来访问和操作数据

  1. 获取数据:可以使用loc通过指定行标签和列标签来获取特定的数据
    df.loc[2, '成绩']
    会选择第1至第3行,以及’成绩’到’姓名’列的数据

  2. 切片操作:loc也可以用于选择特定范围的数据。
    df.loc[1:3, '成绩':'姓名']
    会选择第1至第3行,以及’成绩’到’姓名’列的数据

  3. 条件选择:loc还可以基于条件表达式选择特定的数据


    df.loc[df['成绩'] > 80, '姓名']
    会选择’成绩’大于80的行,并返回对应的’姓名’列

  4. 视图或副本:通过loc选择的数据会返回一个视图或副本,默认情况下是视图。

pandas.sort_values

Pandas中用于对DataFrame或Series对象进行排序的方法。它可根据指定的列或标签的值对数据进行排序

对DataFrame对象的排序:

df.sort_values(by, axis=0, ascending=True, inplace=False)

对Series对象的排序:

series.sort_values(axis=0, ascending=True, inplace=False)
  • by:指定要排序的列或标签。可以是单个列或标签的名称,也可以是列或标签名称的列表。
  • axis:指定排序操作的轴,0表示按行排序,1表示按列排序。
  • ascending:排序方式,默认为True表示升序排序,False表示降序排序。
  • inplace:是否在原对象上进行排序,默认为False表示返回排序后的副本,True表示在原对象上进行排序

pandas.head()

Pandas中用于获取DataFrame或Series对象的前几行数据的方法。它返回数据的前几行,其中的参数指定了要返回的行数。

  • 对DataFrame对象使用:
    df.head(n)
    
  • 对Series对象使用:
    series.head(n)

enumerate

Python内置的函数,用于同时迭代索引和元素。它能够返回一个迭代器,该迭代器生成一个包含索引和对应元素的元组。

enumerate(iterable, start=0)

参数说明:

  • iterable:要迭代的对象,例如列表、元组、字符串等。
  • start(可选):指定索引的起始值,默认为0。
for i, (_, row) in enumerate(top_three.iterrows()):

for i, (_, row) in enumerate(top_three.iterrows())::这是一个for循环语句,用于遍历top_three DataFrame的前三行数据。enumerate()函数会同时返回索引i和行数据row,而iterrows()方法会迭代DataFrame的每一行,返回索引和包含行数据的Series对象。

PIL

PIL(Python Imaging Library)是一个用于处理图像的Python库。它提供了许多图像处理功能,包括打开、保存、调整尺寸、裁剪、旋转、合并、滤镜、文本绘制等操作。

Image模块

Image模块提供了一个名为Image的类,用于表示图像对象

通过使用Image类,可以打开、保存、调整尺寸、裁剪、旋转、合并等各种图像操作。

image = Image.open("image.jpg")
使用Image模块中的open()方法来打开一个图像文件,并将其分配给image变量

ImageDraw模块

ImageDraw模块提供了一个名为Draw的类,用于生成绘图对象,可以在图像上进行各种绘图操作。

它包含了绘图操作所需的方法,比如绘制线条、矩形、椭圆、多边形、文本等。

draw = ImageDraw.Draw(image)
创建了一个Draw对象,并将其分配给draw变量。
之后,可以使用draw对象的方法在图像上绘制文本、几何形状等。

ImageFont模块

ImageFont模块用于处理字体相关的操作。

它提供了一个名为truetype()的方法,用于从字体文件中加载TrueType字体。加载字体后,可以将其用于绘制文本时,指定字体风格、大小等相关属性。

font = ImageFont.truetype(font_path, size=50)
可以使用它来加载字体文件,然后在绘图时指定所使用的字体。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值