1 了解matplotlib
Matplotlib
: 是 Python 的绘图库, 它可与NumPy
一起使用,提供了一种有效的 MatLab 开源替代方案。
2 可视化图案
- 基本可视化团及场景使用
- 柱状图
- 场景:展示多个分类的数据变化和同类别各变量之间的比较情况。
- 适用:对比分类数据
- 局限:分类过多则无法展示数据特点
- 条形图
- 场景:类似柱状图,只不过两根轴对调一下
- 适用:类别名称过长,将有大量空白位置标示每个类别的名称
- 局限:分类过多则无法展示数据特点
- 折线图
- 场景:展示数据随时间或有序类别的波动情况的趋势变化
- 适用:有序的类别,比如时间
- 局限:无序的类别无法展示数据特点
- 柱线图
- 场景:结合柱状图和折线图在同一个图表展现数据
- 适用:要同时展现两个项目数据的特点
- 局限:有柱状图和折线图两者的缺陷
- 散点图
- 场景:用于发现各变量之间的关系
- 适用:存在大量数据点,结果更精准,比如回归分析
- 局限:数据量小的时候会比较混乱
- 饼图
- 场景:用来展示各类别占比,比如男女比例
- 适用:了解数据的分布情况
- 局限:分类过多,则扇形越小,无法展现图表
- 雷达图
- 场景:将多个分类的数据量映射到坐标轴上,对比某项目不同属性的特点
- 适用:了解同类别的不同属性的综合情况,以及比较不同类别的相同属性差异
- 局限:分类过多或变量过多,会比较混乱
- 漏斗图
- 场景:用梯形面积表示某个环节业务量与上一个环节之间的差异
- 适用:有固定流程并且环节较多的分析,可以直观地显示转化率和流失率
- 局限:无序的类别或者没有流程关系的变量
- 瀑布图
- 场景:采用绝对值与相对值结合的方式,展示各成分分布构成情况,比如各项生活开支的占比情况
- 适用:展示数据的累计变化过程
- 局限:各类别数据差别太大则难以比较
- 柱状图
3 matplotlib用法
plt.figure()
函数:生成一个画布- 格式:
figure(num=None, figsize=None, dpi=None, facecolor=None, edgecolor=None, frameon=True)
num
:图像编号或名称,数字为编号,字符串为名称figsize
:指定figure
的宽和高,单位为英寸dpi
:指定绘图对象的分辨率facecolor
:背景颜色edgecolor
:边框颜色frameon
:是否显示边框
- 格式:
plt.plot()
函数:用于画图kind
:图形种类,可以使’line’,'bar’等grid
:显示轴网格线
- 添加轴坐标标签、表头
plt.xlabel
:添加x轴坐标标签plt.ylabel
:添加y轴坐标标签。可以设置字体大小(fontsize=)
plt.title
:添加表头,有很多参数可以设置fontsize
:字体大小backgroudcoloe
:背景颜色fontweight
:字体粗细,[‘light’,‘normal’,‘bold’]color
:字体颜色verticalalignment
:对齐方式, ‘center’ , ‘top’ , ‘bottom’ ,‘baseline’
plt.legend()
:给绘图加上图例plt.show()
:显示绘图- 【任务二:可视化展示泰坦尼克号数据集中男女中生存人数分布情况】
import numpy as np import pandas as pd import matplotlib.pyplot as plt text = pd.read_csv(r'result.csv