Pandas入门
Pandas用来处理表格型或异质型数据,Numpy处理同质型数值类数组
数据结构:Series和DataFrame
Series:
- 一维的数组型对象,包含值序列和索引(默认0~N-1,也可指定pd.Series([], index=[]))
- 也可认为是一组长度固定且有序的字典(pd.Series(字典))
- 相比Numpy数组,可用索引选择数据
- 检查缺失数据:pd.isnull() 和pd.notnull()
- 特性:自动对齐索引
- Series对象自身和索引都有name属性
- 索引可通过按照位置赋值的方式进行改变
DataFrame:
- 矩阵的数据表,包含已排序的列集合,既有行索引又有列索引,也可看做共享相同索引的Series字典,是二维的
- 创建:pd/DataFrame({})
- 取头五行:df.head()
- 删除列:del
- DataFrame取得是数据的视图,不是拷贝。如需赋值,请使用.copy()
- 转置:df.T
- 显示数据:df.values 当列是不同dtype时,df.values显示dtype为object
- 显示索引:df.index,索引对象不可变
- 显示列名:df.columns
基本功能
重建