Pandas入门
1.综述
在前面我们学习了Numpy,Numpy对于处理数据非常的强大,与Matlab相比因为支持Python的API,因此在操作上更加的简单.与纯粹的Python的列表相比又用C语言重写了底层,因此又具有更加快速的优势.
可是我们发现Numpy处理的对象都是非常良好的数据.
但是在我们正常的使用Numpy来分析处理数据的时候,数据往往并不是良好的.
例如:我们如果用二维数组来储存一个灰度图像的话,这个图像可能有一部分因为损坏而不具有具体的值,成了一个缺失值/空值
而且我们日常用的数据来源往往都是储存在Excel,Word等文件.如何让这些值输入进我们的程序来让Numpy处理就是一个问题.总不可能一个个的手动输入.
而Python原生的文件I/O(文件读写)函数在速度上又跟不上.
因此为了解决上面这些问题,我们就出现了Pandas这个强大而好用的库.
就像前面所说的,Pandas库是为了方便的读写各种类型文件中的数据,处理,清洗不良的数据以便于进一步处理的基于Numpy的库
说白了,就是我们在使用Numpy库之前,需要先使用Pandas库来读取数据,处理数据,然后再使用Numpy库来分析数据.
2.Pandas的学习目标
就像Numpy提供的ndarray对象在处理数组时候具有强大功能.
Pandas提供了Series和DataFrame这两个对象,在数据清洗方面具有强大的功能.
除了上面两个对象外,还有一个Index对象.
所以对Pandas的学习,除了各种函数之外,还要学习这三个对象.
除了这三个对象以外,我们还要学习运用Pandas对数据进行处理