Pandas
Lavi_qq_2910138025
这个作者很懒,什么都没留下…
展开
-
pandas学习笔记2—透视表(pivot_table)详解
Pandas透视表(pivot_table)详解介绍也许大多数人都有在Excel中使用数据透视表的经历,其实Pandas也提供了一个类似的功能,名为pivot_table。虽然pivot_table非常有用,但是我发现为了格式化输出我所需要的内容,经常需要记住它的使用语法。所以,本文将重点解释pandas中的函数pivot_table,并教大家如何使用它来进行数据分析。如果你对这个概念不熟悉,wik转载 2017-10-09 16:25:33 · 2763 阅读 · 0 评论 -
pandas.set_option
import pandas as pd1、pd.set_option(‘expand_frame_repr’, False)True就是可以换行显示。设置成False的时候不允许换行2、pd.set_option(‘display.max_rows’, 10)pd.set_option(‘display.max_columns’, 10)显示的最大行数和列数,如果超额就显示省略号,这个指...转载 2019-06-05 20:36:32 · 8437 阅读 · 0 评论 -
pandas的分列操作str.split()
本文主要是在pandas中如何对字符串进行切分。我们考虑一下下面的应用场景。这个是我们的数据集(data),可以看到,数据集中某一列(name)是某个行业的分类。各个行业之间用符号 ‘|’分割。我们要把用每个‘|’进行分割的内容抽取出来。pandas有个一步到到位的方法,非常方便。import pandas as pddata['name'].str.split('|',expand=...转载 2019-06-05 20:33:05 · 51934 阅读 · 0 评论 -
pandas中set_index和reset_index用法
1.set_indexDataFrame可以通过set_index方法, 设置dataframe的某一列或者多列作为索引,即可以设置单索引和复合索引。DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)drop:默认为true,表示是否删除作为新索引的列,默认这个列作...转载 2019-06-05 19:19:59 · 1247 阅读 · 0 评论 -
Numpy和Pandas中axis参数理解
前言numpy和Pandas是数据处理中常用的库,numpy和Pandas许多函数都有axis这个参数,传入axis参数可以指定在哪个轴上操作,但是使用axis到底该指定哪个轴,这带了很多的困惑。下面我们就来分析一下,axis是怎么指定不同的轴的,以及指定不同的轴,是怎样操作的。Pandas保持了Numpy对关键字axis的用法,在此我们以numpy为例进行解释。shape与axis...转载 2018-07-03 11:40:01 · 4228 阅读 · 1 评论 -
Pandas中修改DataFrame列名
有时候经过某些操作后生成的DataFrame的列名称是默认的,为了列名标记已与理解,有时候我们会有修改列名称的需求。转载 2017-11-04 19:39:51 · 26613 阅读 · 0 评论 -
pandas学习笔记5—DataFrame数据筛选loc,iloc,ix,at,iat
DataFrame数据筛选——loc,iloc,ix,at,iat前言众所周知pandas的DataFrame数据结构提供了功能强大的数据操作功能,例如运算,筛选,统计等。今天我们就来谈一谈其强大的数据筛选功能,主要包括两大类,按照条件筛选和按照索引筛选。可以对行进行筛选,也可以按照列进行筛选。条件筛选首先为了方便说明问题,新建一个DataFrameIn [1]: import numpy as n原创 2017-10-15 16:18:22 · 36289 阅读 · 2 评论 -
scikit-learn中评估分类器性能的度量,像混淆矩阵、ROC、AUC等
评估分类器性能的度量,像混淆矩阵、ROC、AUC等内容概要模型评估的目的及一般评估流程分类准确率的用处及其限制混淆矩阵(confusion matrix)是如何表示一个分类器的性能混淆矩阵中的度量是如何计算的通过改变分类阈值来调整分类器性能ROC曲线的用处曲线下面积(Area Under the Curve, AUC)与分类准确率的不同1. 回顾模型评估可以用于在不同的模型类型、调节转载 2017-11-08 14:36:44 · 6214 阅读 · 0 评论 -
DataFrame 数据合并方法
DataFrame 数据合并方法引言Pandas 是数据分析最常用的工具包之一,DataFrame是Pandas最常用的数据结构。在使用Pandas做数据分析时会经常用到类似于数据库连表查询的需求,每次将表格读入数据库进行连表查询,未免太过繁琐。值得庆幸的是Pandas提供了强大基于DataFrame的数据合并功能。具有数据合并功能的函数一共有三个,分别是merge(),concat()和join(转载 2017-11-07 21:44:59 · 9849 阅读 · 0 评论 -
pandas学习笔记4—factorize()
pandas的factorize()理解官网说明 pandas.factorize(values, sort=False, order=None, na_sentinel=-1, size_hint=None) Encode input values as an enumerated type or categorical variable个人理解factorize函数可以将Se原创 2017-10-13 10:18:01 · 27053 阅读 · 1 评论 -
pandas学习笔记3—数据重塑图解Pivot, Pivot-Table, Stack and Unstack
数据重塑图解—Pivot, Pivot-Table, Stack and Unstack引言Pandas是python中常用的数据分析软件库,它提供了DataFrames和Series的工具,这使得numpy和matplotlib可以更加便捷地读取转换数据。数据重塑表示转换一个表格或者向量的结构,使其适合于进一步的分析。Pandas拥有一些其他软件不具备的重塑功能,这对初学者来说可能会比较棘手。本文转载 2017-10-12 22:12:27 · 18860 阅读 · 0 评论 -
Pandas的read_csv函数参数分析
Pandas的read_csv函数参数分析函数原型pd.read_csv(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None转载 2017-11-07 18:48:58 · 9993 阅读 · 0 评论 -
pandas学习笔记1—categories与set_categories
使用pandas的类别相关的方法可以设置和改变数据的类别。import pandas as pdimport numpy as npdf = pd.DataFrame({"id":[1,2,3,4,5,6], "raw_grade":['a', 'b', 'b', 'a', 'a', 'e']})#将raw_grade列转化为category类型df["grade"] = df["raw_gr转载 2017-10-09 18:38:00 · 14880 阅读 · 0 评论 -
pandas判断和删除重复duplicated和drop_duplicates
数据清理- 重复数据判断删除1.函数df.duplicated(subset=None, keep=‘first’) # 指定列数据重复项判断;# 返回:指定列重复行boolean Seriesdf.drop_duplicates(subset=None, keep=‘first’, # 删除重复数据inplace=False) # 返回:副本或替代参数:subset=N...转载 2019-06-05 20:51:39 · 27372 阅读 · 3 评论