1.Series的数组的每一个元素都有与之相关联的标签,标签存储在Index的数组中。默认是从0开始,也可自己定义。在参与运算时,标签也可以参与运算,它能够通过识别标签 对齐不一致的数据。
2.对与Numpy中的数学函数,计算时必须指定出处np.
3.isin()函数用来判断所属关系。判断给定的一列元素是否包含在数据结构中。isin()返回的是布尔值,可用筛选Series或者DataFrame中列的数据。
4.innull()和notnull()函数用来识别没有对应元素的索引时非常好用。
5.series()还可以用作字典
a=pd.series(mydict)
索引数组用字典的键来填充。
6.构建DataFrame对象最常用的方法就是传递一个字典给DataFrame()进行构造。字典以每一列的名称作为键,每个键都有一个数值作为值。DataFrame跟Series()一样,如果Index没有明确的指定标签,Pandas会自动从0开始为数值进行标签。
7.DataFrame中行,用ix属性和行的索引值就能获取。
注意现在时a.ix[[2,3]]
注意现在是 a.ix[2,3]意思是取了2行3列的值。用一个数组指定多个索引值就能选取多行。
ix.[2]是取一整行的意思,最后以Series的形式返回。
8.如果要添加DataFrame中的列,只需指定新列的名称。
9.isin()函数判断一组元素是否属于Series对象。对DataFrame对象也适用。
也可以表中的值体取
10.删除一列使用 del a[‘self’]
11.筛选
12.Index 对象
Index 对象声明后是不可以改变的,其他数据结构公用时,该特性能保证它的安全。
更换索引 reindex 上面说声明后不可改变,但是可以通过reindex重新生成一个新的数据结构。
当重新定义一两个索引可通过reindex重新编制索引,定义所有标签时可能会比较麻烦,对大型的DataFrame 来说更是如此。于是我们可以通过自动填充或者插值的方法来解决这个问题。
此处的索引不是连续的,为了满足连续索引,我们可以如下:
此处还可为空值进行插值
13.删除 a.drop()
注意axis方向的注明。
13.DataFrame与Series对象之间可以进行运算。
14.用 a.apply()****函数调用定义的函数时,需要注意指明轴方向axis=0/1,
axis=0是对列操作,axis=1是对行操作。
15.Series和DataFrame对根据索引对数据进行排序通常用 sort_index()函数进行排序。但是对DataFrame使用时要确定好axis轴的方向。根据数据结构中元素进行排序时要区别对待,对Series用 order()函数
DataFrame使用 sort_index()函数并用 by 选项指定根据哪一列。
16.过滤NAN对DataFrame进行操作时,使用dropna()函数,只要行或者列有一个NAN 就会删除整行或者整列的元素。因此可用how, dropna(how=‘all’)只有整行或者整列的元素会被删除。
17。使用Fillna()函数为NAN元素填充其他值。
18.使用unstack()函数可以把等级索引Series对象转化为一个简单的DataFrame对象。也可以使用stack()函数进行逆操作。
19.使用Swaplevel()函数互换两个层级的名称。
20使用level选项指明获得哪个层级的概括统计量。若对一层的列进行统计,需要把axis设为1。
a.sum(level=‘四’,axis=1)