Numpy库在向量化的数值计算中表现优异,但在处理更加灵活、复杂的数据时(如:为数据添加标签、处理缺失值、分组和透视表等方面),基于Numpy构建的Pandas库更利于数据分析。
一、对象创建
-
Pandas Series对象
Series是带标签的一维数组Series对象的创建
通用结构:pd.Series(data, index=index, dtype=dtype)
data:数据,可为列表,字典或Numpy数组
index:索引,为可选参数
dtype:数据类型,为可选参数1)用列表创建
2)用一维numpy数组创建
3)用字典创建
4)data为标量时
-
Pandas DataFrame对象
DataFrame是带标签的多维数组DataFrame对象的创建
通用结构:pd.DataFrame(data, index=index, columns=columns)
data:数据,可为列表,字典或Numpy数组
index:索引,为可选参数
columns:数据类型,为可选参数
1)通过Series对象创建
2)通过Series对象字典创建
3)通过字典列表对象创建
4)通过Numpy二维数组创建
二、DataFrame性质
- 属性
- 索引
- 切片
行分散,列切片,只能用相对位置的方法
行列都分散取值,也只能用相对位置的方法
- 布尔索引
主要用来取某几列的数据
- 赋值
即先索引,后赋值
三、数值运算及统计分析
- 数据的查看
1)查看前面的行
2)查看后面的行
3)查看总体信息
- Numpy通用函数同样适用于Pandas
2)矩阵化运算