![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pandas
文章平均质量分 73
qwy715229258163
这个作者很懒,什么都没留下…
展开
-
35-Pandas使用的注意事项
Pandas 基于 NumPy 构建,它遵循 NumPy 设定的一些规则。因此,当您在使用 Pandas 时,需要额外留意一些事项,避免出现一些不必要的错误。原创 2024-07-04 00:27:45 · 201 阅读 · 0 评论 -
34-Pandas和NumPy的比较
我们知道 Pandas 是在 NumPy 的基础构建而来,因此,熟悉 NumPy 可以更加有效的帮助我们使用 Pandas。NumPy 主要用 C语言编写,因此,在计算还和处理一维或多维数组方面,它要比 Python 数组快得多。原创 2024-07-04 00:15:14 · 769 阅读 · 0 评论 -
33-Pandas执行SQL操作
我们知道,使用 SQL 语句能够完成对 table 的增删改查操作,Pandas 同样也可以实现 SQL 语句的基本功能。本节主要讲解 Pandas 如何执行 SQL 操作。首先加载一个某连锁咖啡厅地址分布的数据集,通过该数据集对本节内容进行讲解。原创 2024-07-03 23:12:47 · 264 阅读 · 0 评论 -
31-Pandas index操作索引
索引(index)是 Pandas 的重要工具,通过索引可以从 DataFame 中选择特定的行数和列数,这种选择数据的方式称为“子集选择”。在 Pandas 中,索引值也被称为标签(label),它在 Jupyter 笔记本中以粗体字进行显示。索引可以加快数据访问的速度,它就好比数据的书签,通过它可以实现数据的快速查找。原创 2024-07-03 22:47:57 · 212 阅读 · 0 评论 -
30-Pandas Excel读写操作
Excel 是由微软公司开发的办公软件之一,它在日常工作中得到了广泛的应用。在数据量较少的情况下,Excel 对于数据的处理、分析、可视化有其独特的优势,因此可以显著提升您的工作效率。但是,当数据量非常大时,Excel 的劣势就暴露出来了,比如,操作重复、数据分析难等问题。Pandas 提供了操作 Excel 文件的函数,可以很方便地处理 Excel 表格。原创 2024-07-03 22:21:10 · 621 阅读 · 0 评论 -
29-Pandas csv读写文件
在 CSV 文件中指定了一个列,然后使用index_col可以实现自定义索引。print(df)输出结果:(将数据中的列作为行标签)EMPNO。原创 2024-07-03 21:41:39 · 456 阅读 · 0 评论 -
28-Python Pandas读取文件
当使用 Pandas 做数据分析的时,需要读取事先准备好的数据集,这是做数据分析的第一步。本节将对上述方法做详细介绍。原创 2024-07-03 21:05:30 · 319 阅读 · 0 评论 -
27-Python Pandas绘图
Pandas 在数据分析、数据可视化方面有着较为广泛的应用,Pandas 对 Matplotlib 绘图软件包的基础上单独封装了一个plot()接口,通过调用该接口可以实现常用的绘图操作。本节我们深入讲解一下 Pandas 的绘图操作。Pandas 之所以能够实现了数据可视化,主要利用了 Matplotlib 库的 plot() 方法,它对 plot() 方法做了简单的封装,因此您可以直接调用该接口。输结果图,如下所示:通过关键字参数kind可以把上述方法传递给 plot()。原创 2024-07-03 17:27:41 · 297 阅读 · 0 评论 -
24-Pandas随机选择样本
随机抽样,是统计学中常用的一种方法,它可以帮助我们从大量的数据中快速地构建出一组数据分析模型。在 Pandas 中,如果想要对数据集进行随机抽样,需要使用 sample() 函数。该函数返回与数据集类型相同的新对象,相当于 numpy.random.choice()。原创 2024-07-02 23:42:16 · 222 阅读 · 0 评论 -
23-Padans Timedelta时间差
Timedelta 表示时间差(或者时间增量),我们可以使用不同的时间单位来表示它,比如,天、小时、分、秒。时间差的最终的结果可以是正时间差,也可以是负时间差。1。原创 2024-07-02 22:36:17 · 444 阅读 · 0 评论 -
22-Pandas日期时间格式化
当进行数据分析时,我们会遇到很多带有日期、时间格式的数据集,在处理这些数据集时,可能会遇到日期格式不统一的问题,此时就需要对日期时间做统一的格式化处理。比如“Wednesday, June 6, 2020”可以写成“6/6/20”,或者写成“06-06-2020。原创 2024-07-02 21:43:28 · 597 阅读 · 0 评论 -
21-Python Pandas时间序列
顾名思义,时间序列(time series),就是由时间构成的序列,它指的是在一定时间内按照时间顺序测量的某个变量的取值序列,比如一天内的温度会随时间而发生变化,或者股票的价格会随着时间不断的波动,这里用到的一系列时间,就可以看做时间序列。在处理时间序列的过程中,我们一般会遇到两个问题,第一,如何创建时间序列;第二,如何更改已生成时间序列的频率。Pandas 为解决上述问题提供了一套简单、易用的方法。下面用 Python 内置的 datetime 模块来获取当前时间,通过该模块提供的now()原创 2024-07-02 00:13:53 · 684 阅读 · 0 评论 -
20-Pandas concat连接操作
为了便于说明,我们这里还是使用之前的数据:empdata.csv;原创 2024-07-01 23:15:01 · 659 阅读 · 0 评论 -
19-Pandas merge合并操作
Pandas 提供的 merge() 函数能够进行高效的合并操作,这与 SQL 关系型数据库的 join用法非常相似。从字面意思上不难理解,merge 翻译为“合并”,指的是将两个 DataFrame 数据表按照指定的规则进行连接,最后拼接成一个新的 DataFrame 数据表。注意:Pandas 库的 merge() 支持各种内外连接,与其相似的还有 join() 函数(默认为左连接)。原创 2024-07-01 22:12:07 · 1092 阅读 · 0 评论 -
18-Pandas groupby分组操作
在数据分析中,经常会遇到这样的情况:根据某一列(或多列)标签把数据划分为不同的组别,然后再对其进行数据分析。比如,某网站对注册用户的性别或者年龄等进行分组,从而研究出网站用户的画像(特点)。在 Pandas 中,要完成数据的分组操作,需要使用 groupby() 函数,它和 SQL 的GROUP BY操作非常相似。在划分出来的组(group)上应用一些统计函数,从而达到数据分析的目的,比如对分组数据进行聚合、转换,或者过滤。下面对 groupby() 函数的应用过程进行具体的讲解。原创 2024-07-01 12:45:18 · 351 阅读 · 0 评论 -
17-Pandas缺失值处理
稀疏数据,指的是在数据库或者数据集中存在大量缺失数据或者空值,我们把这样的数据集称为稀疏数据集。稀疏数据不是无效数据,只不过是信息不全而已,只要通过适当的方法就可以“变废为宝”。由于调查不当产生的稀疏数据;由于天然限制产生的稀疏数据;文本挖掘中产生的稀疏数据。原创 2024-07-01 10:59:40 · 532 阅读 · 0 评论 -
16-Python Pandas聚合函数
窗口函数可以与聚合函数一起使用,聚合函数指的是对一组数据求总和、最大值、最小值以及平均值的操作。原创 2024-07-01 08:53:18 · 151 阅读 · 0 评论 -
15-Python Pandas窗口函数
为了能更好地处理数值型数据,Pandas 提供了几种窗口函数,比如移动函数(rolling)、扩展函数(expanding)和指数加权函数(ewm)。窗口函数应用场景非常多。举一个简单的例子:现在有 10 天的销售额,而您想每 3 天求一次销售总和,也就说第五天的销售额等于(第三天 + 第四天 + 第五天)的销售额之和,此时窗口函数就派上用场了。窗口是一种形象化的叫法,这些函数在执行操作时,就如同窗口一样在数据区间上移动。原创 2024-07-01 01:01:54 · 402 阅读 · 0 评论 -
14-Python Pandas统计函数
Pandas 的本质是统计学原理在计算机领域的一种应用实现,通过编程的方式达到分析、描述数据的目的。而统计函数则是统计学中用于计算和分析数据的一种工具。在数据分析的过程中,使用统计函数有助于我们理解和分析数据。本节将学习几个常见的统计函数,比如百分比函数、协方差函数、相关系数等。原创 2024-07-01 00:14:12 · 439 阅读 · 0 评论 -
13-Pandas loc与iloc用法介绍
在数据分析过程中,很多时候需要从数据表中提取出相应的数据,而这么做的前提是需要先“索引”出这一部分数据。虽然通过 Python 提供的索引操作符"[]"和属性操作符"."可以访问 Series 或者 DataFrame 中的数据,但这种方式只适应与少量的数据,为了解决这一问题,Pandas 提供了两种类型的索引方式来实现数据的访问。本节就来讲解一下,如何在 Pandas 中使用 loc 函数和 iloc 函数。原创 2024-06-30 23:33:56 · 293 阅读 · 0 评论 -
12-Pandas设置数据显示格式
在用 Pandas 做数据分析的过程中,总需要打印数据分析的结果,如果数据体量较大就会存在输出内容不全(部分内容省略)或者换行错误等问题。Pandas 为了解决上述问题,允许你对数据显示格式进行设置。下面对上述函数分别进行介绍。原创 2024-06-30 22:20:09 · 720 阅读 · 0 评论 -
11-Python Pandas处理字符串
Pandas 提供了一系列的字符串函数,因此能够很方便地对字符串进行处理。注意:上述所有字符串函数全部适用于 DataFrame 对象,同时也可以与 Python 内置的字符串函数一起使用,这些函数在处理 Series/DataFrame 对象的时候会自动忽略缺失值数据(NaN)。原创 2024-06-30 21:30:13 · 342 阅读 · 0 评论 -
10-Python Pandas去重
去重”通过字面意思不难理解,就是删除重复的数据。在一个数据集中,找出重复的数据删并将其删除,最终只保存一个唯一存在的数据项,这就是数据去重的整个过程。删除重复数据是数据分析中经常会遇到的一个问题。通过数据去重,不仅可以节省内存空间,提高写入性能,还可以提升数据集的精确度,使得数据集不受重复数据的影响。Panda DataFrame 对象提供了一个数据去重的函数 drop_duplicates(),本节对该函数的用法做详细介绍。原创 2024-06-30 21:09:01 · 349 阅读 · 0 评论 -
9-Pandas sorting排序
Pands 提供了两种排序方法,分别是按标签排序和按数值排序。本节讲解 Pandas 的排序操作。上述示例,行标签和数值元素均未排序,下面分别使用标签排序、数值排序对其进行操作。原创 2024-06-30 19:04:40 · 335 阅读 · 0 评论 -
8-Pandas iteration遍历
遍历是众多编程语言中必备的一种操作,比如 Python 语言通过 for 循环来遍历列表结构。那么 Pandas 是如何遍历 Series 和 DataFrame 结构呢?我们应该明确,它们的数据结构类型不同的,遍历的方法必然会存在差异。对于 Series 而言,您可以把它当做一维数组进行遍历操作;而像 DataFrame 这种二维数据表结构,则类似于遍历 Python 字典。在 Pandas 中同样也是使用 for 循环进行遍历。通过for。原创 2024-06-30 18:39:30 · 243 阅读 · 0 评论 -
7-Pandas reindex重置索引
重置索引(reindex)可以更改原 DataFrame 的行标签或列标签,并使更改后的行、列标签与 DataFrame 中的数据逐一匹配。通过重置索引操作,您可以完成对现有数据的重新排序。如果重置的索引标签在原 DataFrame 中不存在,那么该标签对应的元素值将全部填充为 NaN。原创 2024-06-30 17:46:21 · 312 阅读 · 0 评论 -
6-Pandas使用自定义函数
如何从上述函数中选择适合的函数,这取决于函数的操作对象。下面介绍了三种方法的使用。原创 2024-06-30 16:51:37 · 436 阅读 · 0 评论 -
5-Pandas描述性统计
描述统计学(descriptive statistics)是一门统计学领域的学科,主要研究如何取得反映客观现象的数据,并以图表形式对所搜集的数据进行处理和显示,最终对数据的规律、特征做出综合性的描述分析。Pandas 库正是对描述统计学知识完美应用的体现,可以说如果没有“描述统计学”作为理论基奠,那么 Pandas 是否存在犹未可知。从描述统计学角度出发,我们可以对 DataFrame 结构执行聚合计算等其他操作,比如 sum() 求和、mean()求均值等方法。原创 2024-06-29 23:21:44 · 725 阅读 · 0 评论 -
4-Pandas DataFrame结构
DataFrame 是 Pandas 的重要数据结构之一,也是在使用 Pandas 进行数据分析过程中最常用的结构之一,可以这么说,掌握了 DataFrame 的用法,你就拥有了学习数据分析的基本能力。原创 2024-06-29 22:38:33 · 796 阅读 · 0 评论 -
3-Pandas Series结构
Series 结构,也称 Series 序列,是 Pandas 常用的数据结构之一,它是一种类似于一维数组的结构,由一组数据值(value)和一组标签组成,其中标签与数据值之间是一一对应的关系。Series 可以保存任何数据类型,比如整数、字符串、浮点数、Python 对象等,它的标签默认为整数,从 0 开始依次递增。Series 的结构图,如下所示:通过标签我们可以更加直观地查看数据所在的索引位置。原创 2024-06-29 18:43:16 · 914 阅读 · 0 评论 -
2-Pandas库下载和安装
Python 官方标准发行版并没有自带 Pandas 库,因此需要另行安装。除了标准发行版外,还有一些第三方机构发布的 Python 免费发行版, 它们在官方版本的基础上开发而来,并有针对性的提前安装了一些 Python 模块,从而满足某些特定领域的需求,比如专门适应于科学计算领域的 Anaconda,它就提前安装了多款适用于科学计算的软件包。对于第三方发行版而言,它们已经自带 Pandas 库,所以无须另行安装。原创 2024-06-29 17:44:06 · 380 阅读 · 0 评论 -
1-Pandas是什么
Pandas 是一个开源的第三方 Python 库,从 Numpy 和 Matplotlib 的基础上构建而来,享有数据分析“三剑客之一”的盛名(NumPy、Matplotlib、Pandas)。Pandas 已经成为 Python 数据分析的必备高级工具,它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。图1:Pandas LogoPandas 这个名字来源于面板数据(Panel Data)与数据分析(data analysis)这两个名词的组合。原创 2024-06-29 17:39:43 · 715 阅读 · 0 评论