修炼之路
主要研究领域包括图像分类、目标检测、OCR、人脸识别等,搞过跨平台的深度学习模型的部署解决方案,设计过分布式的深度学习模型服务架构。
展开
-
pandas的DataFrame的append方法详细介绍
官方文档介绍链接:append方法介绍DataFrame.append(other, ignore_index=False, verify_integrity=False, sort=None)功能说明:向dataframe对象中添加新的行,如果添加的列名不在dataframe对象中,将会被当作新的列进行添加other:DataFrame、series、dict、list这样的数据结构i...原创 2018-12-11 22:18:06 · 329714 阅读 · 7 评论 -
pandas保存文件
1、使用DataFrame的to_csv函数保存文件在使用DataFrame的to_csv保存文件的时候,会默认使用逗号作为分隔符,如果没有设置行列索引,也没有禁用行列索引保存的话,保存文件的时候,会默认加上由0开始的行列索引。 data = pd.DataFrame(np.arange(9).reshape(3, 3)) data.to_csv("data.csv")dat原创 2018-01-14 21:30:46 · 82437 阅读 · 0 评论 -
pandas逐块读取文件
使用pandas来处理文件的时候,经常会遇到大文件,而有时候我们只想要读取其中的一部分数据或对文件进行逐块处理。data.csv1、读取文件中前部分通过nrows参数,来设置读取文件的前多少行,nrows是一个大于等于0的整数。 data = pd.read_csv("data.csv",nrows=5) print(data) '''原创 2018-01-14 21:24:54 · 7995 阅读 · 0 评论 -
使用pandas读取文件
pandas可以将读取到的表格型数据(文件不一定要是表格)转成DataFrame类型的数据结构,然后我们可以通过操作DataFrame进行数据分析,数据预处理以及行和列的操作等。下面介绍一些常用读取文件的方法1、read_csv函数功能:从文件、URL、文件新对象中加载带有分隔符的数据,默认分隔符是逗号。data.txta,b,c,d,name1,2,3,4,python5,6原创 2018-01-14 16:19:44 · 86645 阅读 · 6 评论 -
pandas的整数索引
在使用pandas的过程也许你遇到过一个比较头疼的问题,为什么有的时候能用整数索引有的时候又不能用,下面我们就一起来看一下为什么。一、Series的整数索引 s = pd.Series(np.arange(3),index=["a","b","c"]) print(s[-1]) #2 s1 = pd.Series(np.arange(3)) print原创 2018-01-11 22:01:28 · 4492 阅读 · 0 评论 -
pandas将DataFrame的列变成行索引
pandas提供了set_index方法可以将DataFrame的列(多列)变成行索引,通过reset_index方法可以将层次化索引的级别会被转移到列里面。1、DataFrame的set_index方法 data = pd.DataFrame(np.arange(1,10).reshape(3,3),index=["a","b","c"],columns=["A","B","C"]原创 2018-01-11 21:50:26 · 38964 阅读 · 1 评论 -
pandas的层次化索引
一、层次化索引层次化索引(hierarchical indexing)是pandas的一个重要的功能,它可以在一个轴上有多个(两个以上)的索引,这就表示着,它能够以低维度形式来表示高维度的数据。二、Series的层次化索引 # Series的层次化索引,索引是一个二维数组,相当于两个索引决定一个值 # 有点类似于DataFrame的行索引和列索引 s = Seri原创 2018-01-10 21:49:43 · 13884 阅读 · 0 评论 -
pandas处理缺失值
在实际应用中对于数据进行分析的时候,经常能看见缺失值,下面来介绍一下如何利用pandas来处理缺失值。常见的缺失值处理方式有,过滤、填充。一、缺失值的判断pandas使用浮点值NaN(Not a Number)表示浮点数和非浮点数组中的缺失值,同时python内置None值也会被当作是缺失值。a、Series的缺失值判断 s = Series(["a","b",np.na原创 2018-01-09 20:59:20 · 32964 阅读 · 2 评论 -
pandas的唯一值、值计数以及成员资格
1、Series唯一值判断 s = Series([3,3,1,2,4,3,4,6,5,6]) #判断Series中的值是否重复,False表示重复 print(s.is_unique) #False #输出Series中不重复的值,返回值没有排序,返回值的类型为数组 print(s.unique()) #[3 1 2 4 6 5]原创 2018-01-08 21:55:32 · 14729 阅读 · 0 评论 -
pandas的相关系数与协方差
1、输出百分比变化以及前后指定的行数 a = np.arange(1,13).reshape(6,2) data = DataFrame(a) #计算列的百分比变化,如果想计算行设置axis=1 print(data.pct_change()) ''' 0 1 0 NaN NaN原创 2018-01-08 21:36:48 · 16695 阅读 · 0 评论 -
pandas的汇总和计算描述统计
pandas提供了很多常用的数学和统计方法,其中大部分都属于约简和汇总统计,用于从Series中提取单个值(如sum或mean)或从DataFrame的行或列中提取一个Series。一、DataFrame的sum和mean方法 a = [[1,np.nan,9],[2,8,3],[3,5,np.nan]] data = DataFrame(a,index=["a","b","原创 2018-01-07 21:37:58 · 17580 阅读 · 0 评论 -
pandas带有重复索引操作
有的时候,可能会遇到表格中出现重复的索引,在操作重复索引的时候可能要注意一些问题。一、判断索引是否重复a、Series索引重复判断 s = Series([1,2,3,4,5],index=["a","a","b","b","c"]) print(s.index.is_unique) #FalseSeries.index.is_unique为False表示索引重原创 2018-01-07 15:38:04 · 19839 阅读 · 1 评论 -
pandas的排序和排名
有的时候我们可以要根据索引的大小或者值的大小对Series和DataFrame进行排名和排序。一、排序pandas提供了sort_index方法可以根据行或列的索引按照字典的顺序进行排序a、Series排序1、按索引进行排序 #定义一个Series s = Series([1,2,3],index=["a","c","b"]) #对Series的索引进行排原创 2018-01-07 13:17:46 · 56570 阅读 · 2 评论 -
pandas的函数应用和映射
我们可以定义函数,来应用到DataFrame指定的行或者列上。一、通过apply使用自定义函数 #使用python的lambda定义函数 f = lambda x : x.max() - x.min() a = np.arange(9).reshape(3,3) data = DataFrame(a,index=["a","b","c"],columns=["原创 2018-01-06 21:45:37 · 3962 阅读 · 0 评论 -
pandas的算术运算和数据对齐
pandas可以对不同索引的对象进行算术运算,如果存在不同的索引对,结果的索引就是该索引对的并集。一、算术运算a、series的加法运算 s1 = Series([1,2,3],index=["a","b","c"]) s2 = Series([4,5,6],index=["a","c","e"]) print(s1+s2) ''' a原创 2018-01-06 19:34:55 · 5750 阅读 · 0 评论 -
pandas的基本操作
1、reindex重新索引pandas提供了一个reindex方法来创建一个适应新索引的新对象,Serires通过调用reindex方法会根据新索引的顺序重新排序,如果新的索引中存在原索引中不存在的索引,将会使用NaN值进行填充。 obj = Series([1,2,3],index=["c","b","a"]) obj1 = obj.reindex(["a","b","c"原创 2018-01-03 22:44:35 · 1193 阅读 · 0 评论 -
pandas的索引对象
pandas两个最重要的数据结构Series和DataFrame都具备索引,pandas的索引对象负责管理轴标签和其他元数据(如轴名称等)。在创建Series或DataFrame的时候,用到的数组或其他序列的标签都会被装换成一个Index对象。1、获取index对象 obj = Series([1,2,3],index=["a","b","c"]) #获取index对象原创 2018-01-03 21:34:04 · 2414 阅读 · 0 评论 -
pandas的数据结构之DataFrame
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同数据类型的数据。DataFrame既有行索引也有列索引,可以将它看作为一个由Series组成的字典(共用同一个索引)。DataFrame中的数据是以一个或多个二维块存储的,而不是列表、字典或别的一维数据结构。1、创建DataFramea、通过字典创建,字典的值对应的列表或者numpy数组必须要是等长的。原创 2018-01-02 21:42:13 · 3731 阅读 · 0 评论 -
pandas的数据结构之Series
pandas有两个最主要的数据结构Series和DataFrame,要想熟练的运用pandas进行数据分析,离不开Series和DataFrame的运用。Series是一种类似于一维数组的对象,它是由一组数据和一组标签组成,标签与数据之间存在联系。1、创建一个默认标签的SeriesSeries字符串的组成形式类似于python中的字典,左边是索引,右边是值。Series默认的索引是从0开始原创 2018-01-02 20:11:12 · 2281 阅读 · 2 评论