Pandas数据结构
pandas有两个基本的数据结构:Series和DataFrame。
1.1 创建Series数据
需要引入pandas模块:import pandas as pd
需要引入Series和DataFrame: from pandas import Series,DataFrame
Series数据:索引在左,值在右
Series有values和index属性,可返还值数据的数据形式和索引对象
Series具有索引对象,可通过其获取Series的单个或者一组值
Series运算都会保留索引和值之间的链接
Series数组中的索引和值一一对应,类似于Python字典数据,所以也可以通过字典数据来创建Series
Series对象和索引都有name属性,这样我们就可以给Series定义名称,让Series更具可读性
1.2 创建DataFrame数据
DataFrame数据有行索引和列索引,行索引类似于Excel表格中每行的编号(没有指定索引的情况下),列索引类似于Excel表格的列名(通常也可称为字段)
由于字典是无序的,因此可以通过columns指定列索引的排列顺序
当没有指定行索引的情况下,会使用0到N-1(N为数据的长度)作为行索引,这里也可以使用其他数据作为行索引。
通过values属性可以将DataFrame数据转换为二维数组。
下表中提供了部分常用的为创建DataFrame数据可传入的数据类型。
1.3 索引对象
Series的索引和DataFrame的行和列索引都是索引对象,用于负责管理轴标签和元数据。
索引对象是不可以进行修改的,如果修改就会报错
二、pandas索引操作
2.1 重新索引
重新索引并不是给索引重新命名,而是对索引重新排序,如果某个索引值不存在的话,就会引入缺失值(NaN)。
对于DataFrame数据来说,行和列索引都是可以重新索引的。
需要对插入的缺失值进行填充的话,可通过method参数来实现,参数值为ffill或pad时为向前填充,参数值为bfill或backfill时为向后填充。
reindex函数的各参数使用说明
2.2 更换索引
在DataFrame数据中,如果不 希望使用默认行索引的话ÿ