文章目录
pandas
- 专门用于数据挖掘的开源python库
- 以numpy为基础,借助numpy模块在计算方面性能高的优势
- 基于matplotlib,能够简便的画图
- 提供独特的数据结构—DataFrame、Panel、Series
pandas的优势
- 便捷的数据处理能力
- 读取文件方便
- 封装了Matplotlib,numpy库,便于画图和计算
DataFrame
pandas核心数据结构—DataFrame
- DataFrame是具有行索引和列索引的二维数组
创建DataFrame
直接通过二维数组创建DataFrame,会生成默认索引的DataFrame
DataFrame的结构
DataFrame对象不仅由行索引,又有列索引,是一个具有行列索引的二维数组
- 行索引,表示不同行的横向索引,叫做index
- 列索引,表示不同列的纵向索引,叫做columns
DataFrame的属性
DataFrame.shape
返回DataFrame的行列数(a,b),a表示行数,b表示列数
DataFrame.index
返回DataFrame的行索引
DataFrame.columns
返回DataFrame的列索引
DataFrame.values
返回DataFrame里的数据
DataFrame.T
返回DataFrame的转置
DataFrame的方法
DataFrame.head()
默认返回DataFrame的前五行,不足五行的直接返回
传入需要取的行数,如我想取7行,DataFrame.head(7)即可
DataFrame.tail()
默认返回DataFrame的最后五行,不足五行的直接返回
可以传入需要取的行数,如需要取倒数7行,则DataFrame.tail(7)
DataFrame索引设置
DataFrame索引只能整体修改,即只支持行索引或列索引整体修改,不支持行索引或列索引某个元素单独修改
修改DataFrame的行索引
- 创建DataFrame时,传入列表赋值给index
- 用一个新列表对DataFrame.index重新赋值即可完成修改,
修改DataFrame的列索引
- 创建DataFrame时,传入一个列表对DataFrame.columns进行赋值
- 用一个新列表对DataFrame.columns重新赋值即可完成修改
重设索引
DataFrame.reset_index(drop=False)
- 设置新的索引
- 默认drop值为false,即不删除原来索引,True则删除原来的索引
- 常用于某行或某几行数据被删掉
直接使用会将原索引存进DataFrame中
传入参数drop=True&