Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。
一、数据结构
pandas的主要数据结构包括Series和DataFrame。
(1)Series
它是一种类似于一维数组的对象,是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象。Series的字符串表现形式为:索引位于左边,数据位于右边:
Pandas的Series类对象可以使用以下构造方法创建:
class pandas.Series(data = None,index = None,dtype = None,name = None,copy = False,fastpath = False)data:表示传入的数据。 index:表示索引,唯一且与数据长度相等,默认会自动创建一个从0~N的整数索引。
1、通过传入一个列表来创建一个Series类对象:
2、除了使用列表构建Series类对象外,还可以使用dict进行构建:
为了能方便地操作Series对象中的索引和数据,所以该对象提供了两个属性index和values分别进行获取。当某个索引对应的数据进行运算以后,其运算的结果会替换原数据,仍然与这个索引保持着对应的关系。
(2)DataFrame
DataFrame是一个类似于二维数组或表格(如excel)的对象,它每列的数据可以是不同的数据类型。DataFrame的索引不仅有行索引,还有列索引,数据可以有多列:
Pandas的DataFrame类对象可以使用以下构造方法创建:pandas.DataFrame(data = None,index = None,columns = None,dtype = None,copy = False )index:表示行标签。若不设置该参数,则默认会自动创建一个从0~N的整数索引。columns:列标签。
1、通过传入数组来创建DataFrame类对象:
在创建DataFrame类对象时