Pandas
Pandas知识汇总
Mirst
W.
展开
-
Pandas与SQL比较
由于许多潜在的Pandas用户对SQL有一定的了解,因此本文章旨在提供一些如何使用Pandas执行各种SQL操作的示例。import pandas as pdurl = 'tips.csv'tips=pd.read_csv(url)print (tips.head())文件:tips.csv -total_bill,tip,sex,smoker,day,time,size...转载 2020-04-06 16:13:03 · 400 阅读 · 0 评论 -
Pandas 注意事项&窍门
警告和疑难意味着一个看不见的问题。在使用Pandas过程中,需要特别注意的地方。与Pandas一起使用If/Truth语句当尝试将某些东西转换成布尔值时,Pandas遵循了一个错误的惯例。 这种情况发生在使用布尔运算的。 目前还不清楚结果是什么。 如果它是真的,因为它不是zerolength? 错误,因为有错误的值? 目前还不清楚,Pandas提出了一个ValueError -imp...转载 2020-04-06 15:56:28 · 312 阅读 · 0 评论 -
Pandas 稀疏数据
当任何匹配特定值的数据(NaN/缺失值,尽管可以选择任何值)被省略时,稀疏对象被“压缩”。 一个特殊的SparseIndex对象跟踪数据被“稀疏”的地方。 这将在一个例子中更有意义。 所有的标准Pandas数据结构都应用了to_sparse方法 -import pandas as pdimport numpy as npts = pd.Series(np.random.randn(10...转载 2020-04-06 15:49:38 · 460 阅读 · 0 评论 -
Pandas IO工具
Pandas I/O API是一套像pd.read_csv()一样返回Pandas对象的顶级读取器函数。读取文本文件(或平面文件)的两个主要功能是read_csv()和read_table()。它们都使用相同的解析代码来智能地将表格数据转换为DataFrame对象 -pandas.read_csv(filepath_or_buffer, sep=',', delimiter=None, ...转载 2020-04-06 15:44:23 · 344 阅读 · 0 评论 -
Pandas 可视化
基本绘图:绘图Series和DataFrame上的这个功能只是使用matplotlib库的plot()方法的简单包装实现。参考以下示例代码 -import pandas as pdimport numpy as npdf = pd.DataFrame(np.random.randn(10,4),index=pd.date_range('2018/12/18', periods...转载 2020-04-06 16:13:56 · 451 阅读 · 0 评论 -
Pandas 分类数据
通常实时的数据包括重复的文本列。例如:性别,国家和代码等特征总是重复的。这些是分类数据的例子。分类变量只能采用有限的数量,而且通常是固定的数量。除了固定长度,分类数据可能有顺序,但不能执行数字操作。 分类是Pandas数据类型。分类数据类型在以下情况下非常有用 -一个字符串变量,只包含几个不同的值。将这样的字符串变量转换为分类变量将会节省一些内存。 变量的词汇顺序与逻辑顺序("one...转载 2020-04-04 13:34:16 · 296 阅读 · 0 评论 -
Pandas 时间差(Timedelta)
时间差(Timedelta)是时间上的差异,以不同的单位来表示。例如:日,小时,分钟,秒。它们可以是正值,也可以是负值。可以使用各种参数创建Timedelta对象,如下所示 -字符串通过传递字符串,可以创建一个timedelta对象。参考以下示例代码 -import pandas as pdtimediff = pd.Timedelta('2 days 2 hours 15 m...转载 2020-04-04 13:34:01 · 6288 阅读 · 0 评论 -
Pandas 日期功能
日期功能扩展了时间序列,在财务数据分析中起主要作用。在处理日期数据的同时,我们经常会遇到以下情况 -生成日期序列 将日期序列转换为不同的频率创建一个日期范围通过指定周期和频率,使用date.range()函数就可以创建日期序列。 默认情况下,范围的频率是天。参考以下示例代码 -import pandas as pddatelist = pd.date_range('2020/1...转载 2020-04-04 13:33:44 · 213 阅读 · 0 评论 -
Pandas 级联
Pandas提供了各种工具(功能),可以轻松地将Series,DataFrame和Panel对象组合在一起。pd.concat(objs,axis=0,join='outer',join_axes=None,ignore_index=False)其中,objs - 这是Series,DataFrame或Panel对象的序列或映射。 axis - {0,1,...},默认为0,这...转载 2020-04-04 13:33:20 · 297 阅读 · 0 评论 -
Pandas 合并/连接
Pandas具有功能全面的高性能内存中连接操作,与SQL等关系数据库非常相似。Pandas提供了一个单独的merge()函数,作为DataFrame对象之间所有标准数据库连接操作的入口 -pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,left_index=False, right_index...转载 2020-04-04 13:33:03 · 232 阅读 · 0 评论 -
Pandas 分组(GroupBy)
任何分组(groupby)操作都涉及原始对象的以下操作之一。它们是 -分割对象 应用一个函数 结合的结果在许多情况下,我们将数据分成多个集合,并在每个子集上应用一些函数。在应用函数中,可以执行以下操作 -聚合 - 计算汇总统计 转换 - 执行一些特定于组的操作 过滤 - 在某些情况下丢弃数据下面来看看创建一个DataFrame对象并对其执行所有操作 -import pan...转载 2020-04-04 13:32:43 · 537 阅读 · 0 评论 -
Pandas 缺失数据
数据丢失(缺失)在现实生活中总是一个问题。 机器学习和数据挖掘等领域由于数据缺失导致的数据质量差,在模型预测的准确性上面临着严重的问题。 在这些领域,缺失值处理是使模型更加准确和有效的重点。何时以及为什么数据丢失?想象一下有一个产品的在线调查。很多时候,人们不会分享与他们有关的所有信息。 很少有人分享他们的经验,但不是他们使用产品多久; 很少有人分享使用产品的时间,经验,但不是他们的个人联...转载 2020-04-04 13:32:27 · 186 阅读 · 0 评论 -
Pandas 聚合
当有了滚动,扩展和ewm对象创建了以后,就有几种方法可以对数据执行聚合。DataFrame应用聚合让我们创建一个DataFrame并在其上应用聚合。import pandas as pdimport numpy as npdf = pd.DataFrame(np.random.randn(10, 4), index = pd.date_range('1/1/2019...转载 2020-04-04 13:32:09 · 211 阅读 · 0 评论 -
Pandas 窗口函数
为了处理数字数据,Pandas提供了几个变体,如滚动,展开和指数移动窗口统计的权重。 其中包括总和,均值,中位数,方差,协方差,相关性等。下来学习如何在DataFrame对象上应用上提及的每种方法。.rolling()函数这个函数可以应用于一系列数据。指定window=n参数并在其上应用适当的统计函数。import pandas as pdimport numpy as np...转载 2020-04-04 13:31:27 · 280 阅读 · 0 评论 -
Pandas 统计函数
统计方法有助于理解和分析数据的行为。现在我们将学习一些统计函数,可以将这些函数应用到Pandas的对象上。pct_change()函数系列,DatFrames和Panel都有pct_change()函数。此函数将每个元素与其前一个元素进行比较,并计算变化百分比。import pandas as pdimport numpy as nps = pd.Series([1,2,3,4,...转载 2020-04-04 13:31:04 · 220 阅读 · 0 评论 -
Pandas 索引和选择数据
在本章中,我们将讨论如何切割和丢弃日期,并获取Pandas中大对象的子集。Python和NumPy索引运算符"[]"和属性运算符"."。 可以在广泛的用例中快速轻松地访问Pandas数据结构。然而,由于要访问的数据类型不是预先知道的,所以直接使用标准运算符具有一些优化限制。对于生产环境的代码,我们建议利用本章介绍的优化Pandas数据访问方法。Pandas现在支持三种类型的多轴索引; 这三...转载 2020-04-06 16:13:35 · 286 阅读 · 0 评论 -
Pandas 选项和自定义
Pandas提供API来自定义其行为的某些方面,大多使用来显示。API由五个相关函数组成。它们分别是 -get_option() set_option() reset_option() describe_option() option_context()现在来了解函数是如何工作的。get_option(param)get_option(param)需要一个参数,并返回下面...转载 2020-04-06 16:14:15 · 222 阅读 · 0 评论 -
Pandas 字符串和文本数据
在本章中,我们将使用基本系列/索引来讨论字符串操作。在随后的章节中,将学习如何将这些字符串函数应用于数据帧(DataFrame)。Pandas提供了一组字符串函数,可以方便地对字符串数据进行操作。 最重要的是,这些函数忽略(或排除)丢失/NaN值。几乎这些方法都使用Python字符串函数(请参阅: http://docs.python.org/3/library/stdtypes.html...转载 2020-04-03 00:08:27 · 324 阅读 · 0 评论 -
Pandas 排序
Pandas有两种排序方式,它们分别是 -按标签 按实际值下面来看看一个输出的例子。import pandas as pdimport numpy as npunsorted_df=pd.DataFrame(np.random.randn(10,2),index=[1,4,6,2,3,5,9,8,0,7],columns=['col2','col1'])print (uns...转载 2020-04-03 00:08:14 · 278 阅读 · 0 评论 -
Pandas 迭代
Pandas对象之间的基本迭代的行为取决于类型。当迭代一个系列时,它被视为数组式,基本迭代产生这些值。其他数据结构,如:DataFrame和Panel,遵循类似惯例迭代对象的键。简而言之,基本迭代(对于i在对象中)产生 -Series - 值 DataFrame - 列标签 Pannel - 项目标签迭代DataFrame迭代DataFrame提供列名。现在来看看下面的例子来理解...转载 2020-04-03 00:08:00 · 271 阅读 · 0 评论 -
Pandas 重建索引
重新索引会更改DataFrame的行标签和列标签。重新索引意味着符合数据以匹配特定轴上的一组给定的标签。可以通过索引来实现多个操作 -重新排序现有数据以匹配一组新的标签。 在没有标签数据的标签位置插入缺失值(NA)标记。示例import pandas as pdimport numpy as npN=20df = pd.DataFrame({ 'A': pd.da...转载 2020-04-03 00:07:30 · 516 阅读 · 0 评论 -
Pandas 函数应用
要将自定义或其他库的函数应用于Pandas对象,有三个重要的方法,下面来讨论如何使用这些方法。使用适当的方法取决于函数是否期望在整个DataFrame,行或列或元素上进行操作。表合理函数应用:pipe() 行或列函数应用:apply() 元素函数应用:applymap()表格函数应用可以通过将函数和适当数量的参数作为管道参数来执行自定义操作。 因此,对整个DataFrame执行操作。...转载 2020-04-03 00:07:19 · 219 阅读 · 0 评论 -
Pandas 描述性统计
有很多方法用来集体计算DataFrame的描述性统计信息和其他相关操作。 其中大多数是sum(),mean()等聚合函数,但其中一些,如sumsum(),产生一个相同大小的对象。 一般来说,这些方法采用轴参数,就像ndarray.{sum,std,...},但轴可以通过名称或整数来指定:数据帧(DataFrame) - “index”(axis=0,默认),columns(axis=1)下面...转载 2020-04-03 00:07:01 · 798 阅读 · 0 评论 -
Pandas 基本功能
到目前为止,我们了解了三种Pandas数据结构以及如何创建它们。接下来将主要关注数据帧(DataFrame)对象,因为它在实时数据处理中非常重要,并且还讨论其他数据结构。系列基本功能编号 属性或方法 描述 1 axes 返回行轴标签列表。 2 dtype 返回对象的数据类型(dtype)。 3 empty 如果系列为空,则返回Tr...转载 2020-04-03 00:06:44 · 202 阅读 · 0 评论 -
Pandas Panel
面板(Panel)是3D容器的数据。面板数据一词来源于计量经济学,部分源于名称:Pandas - pan(el)-da(ta)-s。3轴(axis)这个名称旨在给出描述涉及面板数据的操作的一些语义。它们是 -items - axis 0,每个项目对应于内部包含的数据帧(DataFrame)。 major_axis - axis 1,它是每个数据帧(DataFrame)的索引(行)。 m...转载 2020-04-03 00:06:27 · 391 阅读 · 0 评论 -
Pandas DataFrame
数据帧(DataFrame)是二维数据结构,即数据以行和列的表格方式排列。数据帧(DataFrame)的功能特点:潜在的列是不同的类型 大小可变 标记轴(行和列) 可以对行和列执行算术运算结构体假设要创建一个包含学生数据的数据帧。参考以下图示 -可以将上图表视为SQL表或电子表格数据表示。pandas.DataFramepandas中的DataFrame可以使用...转载 2020-04-03 00:06:14 · 257 阅读 · 0 评论 -
Pandas Series
系列(Series)是能够保存任何类型的数据(整数,字符串,浮点数,Python对象等)的一维标记数组。轴标签统称为索引。pandas.SeriesPandas系列可以使用以下构造函数创建 -pandas.Series( data, index, dtype, copy)。Python构造函数的参数如下 -编号 参数 描述 1 data 数据...转载 2020-04-03 00:05:56 · 458 阅读 · 0 评论 -
Pandas 快速入门
对象创建通过传递值列表来创建一个系列,让Pandas创建一个默认的整数索引:import pandas as pdimport numpy as nps = pd.Series([1,3,5,np.nan,6,8])print(s)执行后输出结果如下 -runfile('C:/Users/Administrator/.spyder-py3/temp.py', wdi...转载 2020-04-02 16:53:02 · 450 阅读 · 0 评论 -
Pandas 数据结构
Pandas处理以下三个数据结构 -系列(Series) 数据帧(DataFrame) 面板(Panel)这些数据结构构建在Numpy数组之上,这意味着它们很快。维数和描述考虑这些数据结构的最好方法是,较高维数据结构是其较低维数据结构的容器。 例如,DataFrame是Series的容器,Panel是DataFrame的容器。数据结构 维数 描述 系列 ...转载 2020-04-02 16:17:13 · 203 阅读 · 0 评论