- 博客(9)
- 收藏
- 关注
原创 pandas层次化索引
import numpy as npimport pandas as pdfrom pandas import Series,DateFramedd=DataFrame(np.random.rand(4,2),columns=['data1','data2'],index=[['a','a','b','b'],['1','2','1','2']])ddfrom_tuples
2017-06-25 19:32:11 1944
原创 处理丢失的数据
import numpy as npimport pandas as pdfrom pandas import Series,DataFrame有两种丢失数据:Nonenp.nan(NaN)1. NoneNone是Python自带的,其类型为python object。因此,None不能参与到任何计算中。a=np.array([1,None,3,4])
2017-06-25 17:29:26 507
原创 Pandas(DataFrame)
DataFrameDataFrame是一个【表格型】的数据结构,可以看做是【由Series组成的字典】(共用同一个索引)。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引,也有列索引。行索引:index列索引:columns值:values(numpy的二维数组)1)DataFrame的创建最
2017-06-25 15:12:05 829
原创 numpy
导入numpy库import numpy as npnumpy默认ndarray的所有元素的类型是相同的如果传进来的列表中包含不同的类型,则统一为同一类型,优先级:str>float>intpython 的list类型只能是一维,而ndarray可以是多维的test=np.array([1,2,3,4,5])testarray([1, 2, 3, 4, 5])
2017-06-24 14:50:38 533
原创 数据处理(三)高级部分数据聚合
高级数据聚合可以使用pd.merge()函数包聚合操作的计算结果添加到df的每一行df=DataFrame({'color':['red','green','red','blue','green'], 'item':['pen','pencil','book','cup','watch'], 'price1':np.random.r
2017-06-14 20:44:15 479
原创 数据处理(二)数据聚合
数据聚合是数据处理阶段的最后一步,通常要使每一个数组生成一个单一的数值。数据分类处理:分组:先把数据分为几组用函数处理:为不同组的数据应用不同的函数以转换数据合并:把不同组得到的结果合并起来数据分类处理的核心: groupby()函数df=DataFrame({'color':['red','green','red','blue','green'],
2017-06-14 19:48:59 2939
原创 数据处理阶段(一)
此代码是在ubuntu虚拟机下的jupyter下进行操作的#导包import numpy as npimport pandas as pdfrom pandas import Series,DataFrame1、删除重复元素使用duplicated()函数检测重复的行,返回元素为布尔类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为True#检测
2017-06-14 18:28:55 620
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人