文件操作
数据处理工具pandas
pandas的序列与数据框
1. 序列Series
序列由两列构成,可以由列表,元组,数组,字典构造得到,可以自己命名索引index
创建序列需要用pandas中的Series方法,注意S必须大写
2. 数据框DataFrame
相当于是二维表格,可以自己命名行索引和列索引
创建数据框需要使用DataFrame方法
外部文件的存取
基于pandas库实现文本文件和Excel文件的读取
1. read_csv函数读取txt或csv文件
2. Excel文件的读写
需要导入xlrd模块
- 从excel中读取数据并进行分析
利用read_excel函数
- 将数据写入excel中
先创建一个文件对象和数据框,再将数据框利用.to_excel方法
3. 筛选数据子集
- iloc只能通过行号和列号进行数据的筛选,与数组的索引方式相同,都是从0开始
- loc可以指定具体的行标签和列标签名
Matplotlib数据可视化
matplotlib提出了四种对象容器,Figure,Axes,Axis,Tick
利用matplotlib进行绘图的主要步骤
- 导入pyplot模块
- 设置绘图的数据和参数
- 利用plot,pie,bar,hist,scatter函数进行绘图
- 设置绘图的x轴,y轴,标题,网格线,图例等
- 调用show函数显示图形
可视化应用
1. 折线图
可以指定线条的颜色,线条的样式和数据点的形状
2. 散点图和柱状图
3. 多个图形显示在同一个画面
4. 多个图形单独显示
运用subplot函数将屏幕分成多个子窗口,subplot函数接收三个参数row,column和index,整个图被小图分为几行几列,row和column就是几
5. 三维空间图形的绘制
-
三维空间的曲线
将三维曲线用参数方程表示
-
三维空间曲面表面图和网格图
- 生成x,y网格数组X,Y
- 利用X,Y生成Z的网格数组
- 利用plot_surface函数绘制三维图