Pandas库学习笔记

最新推荐文章于 2024-07-22 21:21:17 发布

狂奔的蜗牛

最新推荐文章于 2024-07-22 21:21:17 发布

阅读量172

点赞数

分类专栏： python 数据挖掘

本文链接：https://blog.csdn.net/weixin_43336305/article/details/97310215

版权

python 同时被 2 个专栏收录

47 篇文章 3 订阅

订阅专栏

数据挖掘

42 篇文章 2 订阅

订阅专栏

1.Series的数组的每一个元素都有与之相关联的标签，标签存储在Index的数组中。默认是从0开始，也可自己定义。在参与运算时，标签也可以参与运算，它能够通过识别标签对齐不一致的数据。

2.对与Numpy中的数学函数，计算时必须指定出处np.

3.isin()函数用来判断所属关系。判断给定的一列元素是否包含在数据结构中。isin（）返回的是布尔值，可用筛选Series或者DataFrame中列的数据。
4.innull()和notnull()函数用来识别没有对应元素的索引时非常好用。

5.series()还可以用作字典
a=pd.series(mydict)
索引数组用字典的键来填充。

6.构建DataFrame对象最常用的方法就是传递一个字典给DataFrame（）进行构造。字典以每一列的名称作为键，每个键都有一个数值作为值。DataFrame跟Series()一样，如果Index没有明确的指定标签，Pandas会自动从0开始为数值进行标签。
在这里插入图片描述
7.DataFrame中行，用ix属性和行的索引值就能获取。
注意现在时a.ix[[2,3]]

注意现在是 a.ix[2,3]意思是取了2行3列的值。用一个数组指定多个索引值就能选取多行。

在这里插入图片描述
ix.[2]是取一整行的意思，最后以Series的形式返回。

8.如果要添加DataFrame中的列，只需指定新列的名称。
在这里插入图片描述
9.isin()函数判断一组元素是否属于Series对象。对DataFrame对象也适用。

也可以表中的值体取

10.删除一列使用 del a[‘self’]

11.筛选

12.Index 对象
Index 对象声明后是不可以改变的，其他数据结构公用时，该特性能保证它的安全。

更换索引 reindex 上面说声明后不可改变，但是可以通过reindex重新生成一个新的数据结构。

当重新定义一两个索引可通过reindex重新编制索引，定义所有标签时可能会比较麻烦，对大型的DataFrame 来说更是如此。于是我们可以通过自动填充或者插值的方法来解决这个问题。
在这里插入图片描述
此处的索引不是连续的，为了满足连续索引，我们可以如下：

此处还可为空值进行插值

13.删除 a.drop()

注意axis方向的注明。
13.DataFrame与Series对象之间可以进行运算。

14.用 a.apply()****函数调用定义的函数时，需要注意指明轴方向axis=0/1,
axis=0是对列操作，axis=1是对行操作。

15.Series和DataFrame对根据索引对数据进行排序通常用 sort_index()函数进行排序。但是对DataFrame使用时要确定好axis轴的方向。根据数据结构中元素进行排序时要区别对待，对Series用 order()函数
DataFrame使用 sort_index()函数并用 by 选项指定根据哪一列。

16.过滤NAN对DataFrame进行操作时，使用dropna（）函数，只要行或者列有一个NAN 就会删除整行或者整列的元素。因此可用how, dropna(how=‘all’)只有整行或者整列的元素会被删除。

17。使用Fillna()函数为NAN元素填充其他值。

18.使用unstack()函数可以把等级索引Series对象转化为一个简单的DataFrame对象。也可以使用stack()函数进行逆操作。

19.使用Swaplevel()函数互换两个层级的名称。

20使用level选项指明获得哪个层级的概括统计量。若对一层的列进行统计，需要把axis设为1。
a.sum(level=‘四’，axis=1)