![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Pandas教程(非常详细)
文章平均质量分 68
睿科知识云
中国航天科工信息系统项目管理高级工程师
取得法律职业资格证书
希望和大家一起学习一起进步
展开
-
Pandas loc/iloc用法详解
Pandas loc/iloc用法详解在数据分析过程中,很多时候需要从数据表中提取出相应的数据,而这么做的前提是需要先“索引”出这一部分数据。虽然通过 Python 提供的索引操作符"[]“和属性操作符”."可以访问 Series 或者 DataFrame 中的数据,但这种方式只适应与少量的数据,为了解决这一问题,Pandas 提供了两种类型的索引方式来实现数据的访问。本节就来讲解一下,如何在 Pandas 中使用 loc 函数和 iloc 函数。两种函数说明如下:方法名称说明.l原创 2022-05-14 07:42:38 · 760 阅读 · 0 评论 -
Pandas和NumPy的比较
Pandas和NumPy的比较我们知道 Pandas 是在 NumPy 的基础构建而来,因此,熟悉 NumPy 可以更加有效的帮助我们使用 Pandas。NumPy 主要用 C语言编写,因此,在计算还和处理一维或多维数组方面,它要比 Python 数组快得多。关于 NumPy 的学习,可以参考之前内容。创建数组数组的主要作用是在一个变量中存储多个值。NumPy 可以轻松地处理多维数组,示例如下:import numpy as nparr = np.array([2, 4, 6, 8, 10, 1原创 2022-05-14 07:37:54 · 1650 阅读 · 0 评论 -
Pandas执行SQL操作
Pandas执行SQL操作我们知道,使用 SQL 语句能够完成对 table 的增删改查操作,Pandas 同样也可以实现 SQL 语句的基本功能。本节主要讲解 Pandas 如何执行 SQL 操作。首先加载一个某连锁咖啡厅地址分布的数据集,通过该数据集对本节内容进行讲解。import pandas as pdurl = 'C:/Users/Administrator/Desktop/coffee/kafei.xlsx'coffee_df=pd.read_excel(url)coffee_df.原创 2022-05-11 10:53:14 · 1332 阅读 · 0 评论 -
Pandas分层索引入门教程(详解)
Pandas分层索引入门教程(详解)分层索引(Multiple Index)是 Pandas 中非常重要的索引类型,它指的是在一个轴上拥有多个(即两个以上)索引层数,这使得我们可以用低维度的结构来处理更高维的数据。比如,当想要处理三维及以上的高维数据时,就需要用到分层索引。分层索引的目的是用低维度的结构(Series 或者 DataFrame)更好地处理高维数据。通过分层索引,我们可以像处理二维数据一样,处理三维及以上的数据。分层索引的存在使得分析高维数据变得简单,让抽象的高维数据变得容易理解,同时它比原创 2022-05-11 10:49:28 · 2589 阅读 · 0 评论 -
Pandas index操作索引
Pandas index操作索引索引(index)是 Pandas 的重要工具,通过索引可以从 DataFame 中选择特定的行数和列数,这种选择数据的方式称为“子集选择”。在 Pandas 中,索引值也被称为标签(label),它在 Jupyter 笔记本中以粗体字进行显示。索引可以加快数据访问的速度,它就好比数据的书签,通过它可以实现数据的快速查找。创建索引通过示例对 index 索引做进一步讲解。下面创建一个带有 index 索引的数据,并使用 read_csv() 这些读取数据:impor原创 2022-05-11 10:40:50 · 1699 阅读 · 0 评论 -
Pandas Excel读写操作详解
Pandas Excel读写操作详解Excel 是由微软公司开发的办公软件之一,它在日常工作中得到了广泛的应用。在数据量较少的情况下,Excel 对于数据的处理、分析、可视化有其独特的优势,因此可以显著提升您的工作效率。但是,当数据量非常大时,Excel 的劣势就暴露出来了,比如,操作重复、数据分析难等问题。Pandas 提供了操作 Excel 文件的函数,可以很方便地处理 Excel 表格。to_excel()通过 to_excel() 函数可以将 Dataframe 中的数据写入到 Excel 文原创 2022-05-11 10:38:12 · 652 阅读 · 0 评论 -
Pandas csv读写文件
Pandas csv读写文件在前一节中,我们讲解了多种用 Pandas 读写文件的方法。本节我们讲解如何应用这些方法 。我们知道,文件的读写操作属于计算机的 IO 操作,Pandas IO 操作提供了一些读取器函数,比如 pd.read_csv()、pd.read_json 等,它们都返回一个 Pandas 对象。在 Pandas 中用于读取文本的函数有两个,分别是: read_csv() 和 read_table() ,它们能够自动地将表格数据转换为 DataFrame 对象。其中 read_csv原创 2022-05-11 10:26:24 · 769 阅读 · 0 评论 -
Python Pandas读取文件
Python Pandas读取文件当使用 Pandas 做数据分析的时,需要读取事先准备好的数据集,这是做数据分析的第一步。Panda 提供了多种读取数据的方法:read_csv() 用于读取文本文件read_json() 用于读取 json 文件read_sql_query() 读取 sql 语句的,本节将对上述方法做详细介绍。CSV文件读取CSV 又称逗号分隔值文件,是一种简单的文件格式,以特定的结构来排列表格数据。 CSV 文件能够以纯文本形式存储表格数据,比如电子表格、数据库文件,并具原创 2022-05-11 10:21:20 · 1591 阅读 · 0 评论 -
Python Pandas绘图教程(详解版)
Python Pandas绘图教程(详解版)Pandas 在数据分析、数据可视化方面有着较为广泛的应用,Pandas 对 Matplotlib 绘图软件包的基础上单独封装了一个plot()接口,通过调用该接口可以实现常用的绘图操作。本节我们深入讲解一下 Pandas 的绘图操作。Pandas 之所以能够实现了数据可视化,主要利用了 Matplotlib 库的 plot() 方法,它对 plot() 方法做了简单的封装,因此您可以直接调用该接口。下面看一组简单的示例:import pandas as p原创 2022-05-11 10:18:11 · 1033 阅读 · 0 评论 -
Python Pandas分类对象
Python Pandas分类对象通常情况下,数据集中会存在许多同一类别的信息,比如相同国家、相同行政编码、相同性别等,当这些相同类别的数据多次出现时,就会给数据处理增添许多麻烦,导致数据集变得臃肿,不能直观、清晰地展示数据。针对上述问题,Pandas 提供了分类对象(Categorical Object),该对象能够实现有序排列、自动去重的功能,但是它不能执行运算。本节,我们了解一下分类对象的使用。对象创建我们可以通过多种方式创建分类对象,下面介绍以下两种方法:1) 指定dtype创建impo原创 2022-05-11 10:12:56 · 290 阅读 · 0 评论 -
Pandas resample数据重采样
Pandas resample数据重采样数据重采样是将时间序列从一个频率转换至另一个频率的过程,它主要有两种实现方式,分别是降采样和升采样,降采样指将高频率的数据转换为低频率,升采样则与其恰好相反,说明如下:方法说明降采样将高频率(间隔短)数据转换为低频率(间隔长)。升采样将低频率数据转换为高频率。Pandas 提供了 resample() 函数来实现数据的重采样。降采样通过 resample() 函数完成数据的降采样,比如按天计数的频率转换为按月计数。impo原创 2022-05-11 10:07:20 · 1109 阅读 · 0 评论 -
Pandas sample随机抽样
Pandas sample随机抽样随机抽样,是统计学中常用的一种方法,它可以帮助我们从大量的数据中快速地构建出一组数据分析模型。在 Pandas 中,如果想要对数据集进行随机抽样,需要使用 sample() 函数。sample() 函数的语法格式如下:DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)参数说明如下表所示:参数名称参数说明n原创 2022-05-11 10:02:13 · 1778 阅读 · 0 评论 -
Padans Timedelta时间差
Padans Timedelta时间差Timedelta 表示时间差(或者时间增量),我们可以使用不同的时间单位来表示它,比如,天、小时、分、秒。时间差的最终的结果可以是正时间差,也可以是负时间差。本节主要介绍创建 Timedelta (时间差)的方法以及与时间差相关的运算法则。字符串通过传递字符串可以创建 Timedelta 对象,示例如下:import pandas as pdprint(pd.Timedelta('5 days 8 hours 6 minutes 59 seconds'))原创 2022-04-19 13:22:37 · 298 阅读 · 0 评论 -
Pandas日期时间格式化
Pandas日期时间格式化当进行数据分析时,我们会遇到很多带有日期、时间格式的数据集,在处理这些数据集时,可能会遇到日期格式不统一的问题,此时就需要对日期时间做统一的格式化处理。比如“Wednesday, June 6, 2020”可以写成“6/6/20”,或者写成“06-06-2020。日期格式化符号在对时间进行格式化处理时,它们都有固定的表示格式,比如小时的格式化符号为%H ,分钟简写为%M ,秒简写为%S。下表对常用的日期格式化符号做了总结:日期格式化符号符号说明%y两原创 2022-04-19 13:18:59 · 12697 阅读 · 0 评论 -
Python Pandas时间序列详解
Python Pandas时间序列详解顾名思义,时间序列(time series),就是由时间构成的序列,它指的是在一定时间内按照时间顺序测量的某个变量的取值序列,比如一天内的温度会随时间而发生变化,或者股票的价格会随着时间不断的波动,这里用到的一系列时间,就可以看做时间序列。时间序列包含三种应用场景,分别是:特定的时刻(timestamp),也就是时间戳;固定的日期(period),比如某年某月某日;时间间隔(interval),每隔一段时间具有规律性;在处理时间序列的过程中,我们一般会遇到两个原创 2022-04-19 13:16:01 · 733 阅读 · 0 评论 -
Pandas concat连接操作
Pandas concat连接操作Pandas 通过 concat() 函数能够轻松地将 Series 与 DataFrame 对象组合在一起,函数的语法格式如下:pd.concat(objs,axis=0,join='outer',join_axes=None,ignore_index=False)参数说明如下所示:参数名称说明objs一个序列或者是Series、DataFrame对象。axis表示在哪个轴方向上(行或者列)进行连接操作,默认 axis=0 表示行方原创 2022-04-19 13:07:02 · 734 阅读 · 0 评论 -
Pandas merge合并操作
Pandas merge合并操作Pandas 提供的 merge() 函数能够进行高效的合并操作,这与 SQL 关系型数据库的 MERGE 用法非常相似。从字面意思上不难理解,merge 翻译为“合并”,指的是将两个 DataFrame 数据表按照指定的规则进行连接,最后拼接成一个新的 DataFrame 数据表。merge() 函数的法格式如下:pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,left_原创 2022-04-19 13:03:31 · 1071 阅读 · 0 评论 -
Pandas groupby分组操作详解
Pandas groupby分组操作详解在数据分析中,经常会遇到这样的情况:根据某一列(或多列)标签把数据划分为不同的组别,然后再对其进行数据分析。比如,某网站对注册用户的性别或者年龄等进行分组,从而研究出网站用户的画像(特点)。在 Pandas 中,要完成数据的分组操作,需要使用 groupby() 函数,它和 SQL 的GROUP BY操作非常相似。在划分出来的组(group)上应用一些统计函数,从而达到数据分析的目的,比如对分组数据进行聚合、转换,或者过滤。这个过程主要包含以下三步:拆分(Spl原创 2022-04-19 12:50:32 · 2317 阅读 · 0 评论 -
Python Pandas缺失值处理
Python Pandas缺失值处理在一些数据分析业务中,数据缺失是我们经常遇见的问题,缺失值会导致数据质量的下降,从而影响模型预测的准确性,这对于机器学习和数据挖掘影响尤为严重。因此妥善的处理缺失值能够使模型预测更为准确和有效。为什么会存在缺失值?前面章节的示例中,我们遇到过很多 NaN 值,关于缺失值您可能会有很多疑问,数据为什么会丢失数据呢,又是从什么时候丢失的呢?通过下面场景,您会得到答案。其实在很多时候,人们往往不愿意过多透露自己的信息。假如您正在对用户的产品体验做调查,在这个过程中您会发原创 2022-04-19 12:44:49 · 3414 阅读 · 0 评论 -
Python Pandas聚合函数
Python Pandas聚合函数在前一节,我们重点介绍了窗口函数。我们知道,窗口函数可以与聚合函数一起使用,聚合函数指的是对一组数据求总和、最大值、最小值以及平均值的操作,本节重点讲解聚合函数的应用。应用聚合函数首先让我们创建一个 DataFrame 对象,然后对聚合函数进行应用。import pandas as pdimport numpy as npdf = pd.DataFrame(np.random.randn(5, 4),index = pd.date_range('12/14/20原创 2022-04-19 12:34:32 · 2042 阅读 · 0 评论 -
Python Pandas窗口函数
Python Pandas窗口函数为了能更好地处理数值型数据,Pandas 提供了几种窗口函数,比如移动函数(rolling)、扩展函数(expanding)和指数加权函数(ewm)。窗口函数应用场景非常多。举一个简单的例子:现在有 10 天的销售额,而您想每 3 天求一次销售总和,也就说第五天的销售额等于(第三天 + 第四天 + 第五天)的销售额之和,此时窗口函数就派上用场了。窗口是一种形象化的叫法,这些函数在执行操作时,就如同窗口一样在数据区间上移动。本节学习主要讲解如何在 DataFrame原创 2022-04-19 12:29:10 · 3887 阅读 · 0 评论 -
Python Pandas统计函数
Python Pandas统计函数Pandas 的本质是统计学原理在计算机领域的一种应用实现,通过编程的方式达到分析、描述数据的目的。而统计函数则是统计学中用于计算和分析数据的一种工具。在数据分析的过程中,使用统计函数有助于我们理解和分析数据。本节将学习几个常见的统计函数,比如百分比函数、协方差函数、相关系数等。百分比变化(pct_change)Series 和 DatFrames 都可以使用 pct_change() 函数。该函数将每个元素与其前一个元素进行比较,并计算前后数值的百分比变化。示例如下原创 2022-04-19 11:54:07 · 533 阅读 · 0 评论 -
Pandas loc/iloc用法详解
Pandas loc/iloc用法详解在数据分析过程中,很多时候需要从数据表中提取出相应的数据,而这么做的前提是需要先“索引”出这一部分数据。虽然通过 Python 提供的索引操作符"[]“和属性操作符”."可以访问 Series 或者 DataFrame 中的数据,但这种方式只适应与少量的数据,为了解决这一问题,Pandas 提供了两种类型的索引方式来实现数据的访问。本节就来讲解一下,如何在 Pandas 中使用 loc 函数和 iloc 函数。两种函数说明如下:方法名称说明.l原创 2022-04-18 12:44:45 · 2375 阅读 · 0 评论 -
Pandas设置数据显示格式
Pandas设置数据显示格式在用 Pandas 做数据分析的过程中,总需要打印数据分析的结果,如果数据体量较大就会存在输出内容不全(部分内容省略)或者换行错误等问题。Pandas 为了解决上述问题,允许你对数据显示格式进行设置。下面列出了五个用来设置显示格式的函数,分别是:get_option()set_option()reset_option()describe_option()option_context()它们的功能介绍如下:函数名称说明get_option获取解原创 2022-04-18 12:39:41 · 1881 阅读 · 0 评论 -
Python Pandas处理字符串(方法详解)
Python Pandas处理字符串(方法详解)Pandas 提供了一系列的字符串函数,因此能够很方便地对字符串进行处理。在本节,我们使用 Series 对象对常用的字符串函数进行讲解。常用的字符串处理函数如下表所示:函数名称函数功能和描述lower()将的字符串转换为小写。upper()将的字符串转换为大写。len()得出字符串的长度。strip()去除字符串两边的空格(包含换行符)。split()用指定的分割符分割字符串。cat(sep=原创 2022-04-18 12:34:15 · 1034 阅读 · 0 评论 -
Pandas去重函数:drop_duplicates()
Pandas去重函数:drop_duplicates()“去重”通过字面意思不难理解,就是删除重复的数据。在一个数据集中,找出重复的数据删并将其删除,最终只保存一个唯一存在的数据项,这就是数据去重的整个过程。删除重复数据是数据分析中经常会遇到的一个问题。通过数据去重,不仅可以节省内存空间,提高写入性能,还可以提升数据集的精确度,使得数据集不受重复数据的影响。Panda DataFrame 对象提供了一个数据去重的函数drop_duplicates(),本节对该函数的用法做详细介绍。函数格式drop原创 2022-04-18 12:27:02 · 2288 阅读 · 0 评论 -
Pandas sorting排序
Pandas sorting排序Pands 提供了两种排序方法,分别是按标签排序和按数值排序。本节讲解 Pandas 的排序操作。下面创建一组 DataFrame 数据,如下所示:import pandas as pdimport numpy as np#行标签乱序排列,列标签乱序排列unsorted_df=pd.DataFrame(np.random.randn(10,2),index=[1,6,4,2,3,5,9,8,0,7],columns=['col2','col1'])print(u原创 2022-04-18 12:22:11 · 309 阅读 · 0 评论 -
Pandas iteration遍历
Pandas iteration遍历遍历是众多编程语言中必备的一种操作,比如 Python 语言通过 for 循环来遍历列表结构。那么 Pandas 是如何遍历 Series 和 DataFrame 结构呢?我们应该明确,它们的数据结构类型不同的,遍历的方法必然会存在差异。对于 Series 而言,您可以把它当做一维数组进行遍历操作;而像 DataFrame 这种二维数据表结构,则类似于遍历 Python 字典。在 Pandas 中同样也是使用 for 循环进行遍历。通过for遍历后,Series 可原创 2022-04-18 12:18:39 · 540 阅读 · 0 评论 -
Pandas reindex重置索引
Pandas reindex重置索引重置索引(reindex)可以更改原 DataFrame 的行标签或列标签,并使更改后的行、列标签与 DataFrame 中的数据逐一匹配。通过重置索引操作,您可以完成对现有数据的重新排序。如果重置的索引标签在原 DataFrame 中不存在,那么该标签对应的元素值将全部填充为 NaN。重置行列标签看一组简单示例:import pandas as pdimport numpy as npN=20df = pd.DataFrame({ 'A': pd.d原创 2022-04-18 12:14:11 · 3436 阅读 · 0 评论 -
Pandas使用自定义函数
Pandas使用自定义函数如果想要应用自定义的函数,或者把其他库中的函数应用到 Pandas 对象中,有以下三种方法:1) 操作整个 DataFrame 的函数:pipe()2) 操作行或者列的函数:apply()3) 操作单一元素的函数:applymap()如何从上述函数中选择适合的函数,这取决于函数的操作对象。下面介绍了三种方法的使用。操作整个数据表通过给 pipe() 函数传递一个自定义函数和适当数量的参数值,从而操作 DataFrme 中的所有元素。下面示例,实现了数据表中的元素值依次原创 2022-04-18 12:11:07 · 1179 阅读 · 0 评论 -
Python Pandas描述性统计
Python Pandas描述性统计描述统计学(descriptive statistics)是一门统计学领域的学科,主要研究如何取得反映客观现象的数据,并以图表形式对所搜集的数据进行处理和显示,最终对数据的规律、特征做出综合性的描述分析。Pandas 库正是对描述统计学知识完美应用的体现,可以说如果没有“描述统计学”作为理论基奠,那么 Pandas 是否存在犹未可知。下列表格对 Pandas 常用的统计学函数做了简单的总结:函数名称描述说明count()统计某个非空值的数量。原创 2022-04-18 12:06:17 · 328 阅读 · 0 评论 -
Pandas Panel三维数据结构
Pandas Panel三维数据结构Panel 结构也称“面板结构”,它源自于 Panel Data 一词,翻译为“面板数据”。如果您使用的是 Pandas 0.25 以前的版本,那么您需要掌握本节内容,否则,作为了解内容即可。自 Pandas 0.25 版本后, Panel 结构已经被废弃。Panel 是一个用来承载数据的三维数据结构,它有三个轴,分别是 items(0 轴),major_axis(1 轴),而 minor_axis(2 轴)。这三个轴为描述、操作 Panel 提供了支持,其作用介绍原创 2022-04-18 11:59:06 · 1706 阅读 · 0 评论 -
Pandas DataFrame入门教程(图解版)
Pandas DataFrame入门教程(图解版)DataFrame 是 Pandas 的重要数据结构之一,也是在使用 Pandas 进行数据分析过程中最常用的结构之一,可以这么说,掌握了 DataFrame 的用法,你就拥有了学习数据分析的基本能力。认识DataFrame结构DataFrame 一个表格型的数据结构,既有行标签(index),又有列标签(columns),它也被称异构数据表,所谓异构,指的是表格中每列的数据类型可以不同,比如可以是字符串、整型或者浮点型等。其结构图示意图,如下所示:原创 2022-04-15 13:06:06 · 8857 阅读 · 0 评论 -
Pandas Series入门教程
Pandas Series入门教程Series 结构,也称 Series 序列,是 Pandas 常用的数据结构之一,它是一种类似于一维数组的结构,由一组数据值(value)和一组标签组成,其中标签与数据值之间是一一对应的关系。Series 可以保存任何数据类型,比如整数、字符串、浮点数、Python 对象等,它的标签默认为整数,从 0 开始依次递增。Series 的结构图,如下所示:通过标签我们可以更加直观地查看数据所在的索引位置。创建Series对象Pandas 使用 Series() 函原创 2022-04-15 12:47:10 · 2287 阅读 · 0 评论 -
Pandas库下载和安装
Pandas库下载和安装Python 官方标准发行版并没有自带 Pandas 库,因此需要另行安装。除了标准发行版外,还有一些第三方机构发布的 Python 免费发行版, 它们在官方版本的基础上开发而来,并有针对性的提前安装了一些 Python 模块,从而满足某些特定领域的需求,比如专门适应于科学计算领域的 Anaconda,它就提前安装了多款适用于科学计算的软件包。对于第三方发行版而言,它们已经自带 Pandas 库,所以无须另行安装。下面介绍了常用的免费发行版:Anaconda(官网下载:ht原创 2022-04-15 12:36:17 · 6563 阅读 · 0 评论 -
Pandas是什么
Pandas 库是一个免费、开源的第三方 Python 库,是 Python 数据分析必不可少的工具之一,它为 Python 数据分析提供了高性能,且易于使用的数据结构,即 Series 和 DataFrame。Pandas 自诞生后被应用于众多的领域,比如金融、统计学、社会科学、建筑工程等。Pandas 库基于 Python NumPy 库开发而来,因此,它可以与 Python 的科学计算库配合使用。Pandas 提供了两种数据结构,分别是 Series(一维数组结构)与 DataFrame(二维数组原创 2022-04-15 12:32:00 · 3945 阅读 · 0 评论