常用设置
- 获取当前图表对象
- fig = matplotlib.pyplot.gcf()
- (gcf = get current figure)
- 常用图表对象设置
例子:有两种设置图像大小的方式,但是有区别!- fig.set_size_inches(10,10) # 以英尺为单位
- matplotlib.pyplot.figure(figsize=(14,7))
- 保存当前图表对象
- matplotlib.pyplot.savefig(“figure1.png”)
import matplotlib
from matplotlib import pyplot as plt # 简写 matplotlib.pyplot 为 plt
import numpy as np
import scipy
# 包含不同的pdf
from scipy import stats
# 让图片显示在notebook中
%matplotlib inline
# 绘制的图显示在代码框中
# plt.show(), plt.cla(), plt.clf(), plt.close()
plt.figure(figsize=(10,5)) # 先生成一个10*5的图
x = np.arange(-5,5,0.01) # 生成数字序列
y = stats.norm.pdf(x,0,1) # loc = mean, scale = sigma 用统计学包输出均值为0,方差为1的正态分布
plt.plot(x,y) # 画图!
plt.savefig("figure1.png") # 把图保存为figure1(不支持jpg)
plt.figure(figsize=(5,5)) # 关键:.figure 函数会清空画面
plt.savefig("figure2.png") # 为什么figure2是空的?因为还没有画,画面成了空白的方形图。
fig = plt.gcf()
fig.set_size_inches(5,8)
plt.savefig("figure3.png") # 为什么figure3是空的?因为gcf取得的是上一个空白图哦~
plt.plot(x,y)
fig = plt.gcf()
fig.set_size_inches(5,5)
plt.savefig("figure4.png") # figure4图片终于是5*5的正方形
两种设置图像大小的方法如何选择?
画之前设置 VS 画之后设置,.figure 是一定要画之前就设置好,一旦画过了之后再想做局部的修改,就只能用当前句柄对象.set_*的方式设置了图像了。(所谓的句柄,就是类似指针的指针!)
常用图形
- 曲线图:matplotlib.pyplot.plot(data)
- 灰度图:matplotlib.pyplot.hist(data)
- 散点图:matplotlib.pyplot.scatter(data)
- 箱式图:matplotlib.pyplot.boxplot(data)
x = np.arange(-5,5,0.1) # -5到5区间,相隔0.1取点为list
y = x ** 2
plt.plot(x,y)
# 曲线图演示
x = np.random.normal(size=1000) # 随机生成正态分布的1000个样本
plt.hist(x, bins=10)
plt.show()
# 灰度图histogram,其中bins是柱子的数目
x = np.random.normal(size=1000)
y = np.random.normal(size=1000)
plt.scatter(x,y)
# 散点图
plt.boxplot(x)
# 箱式图 (正态分布)
箱式图科普
(信息含量很大~有一半的数值都在箱子里面)
- 上边缘(Q3+1.5IQR)、下边缘(Q1-1.5IQR)(其中 IQR=Q3-Q1 是 interquartile range)
(信息含量很大~有一半的数值都在箱子里面)
- 上四分位数(Q3)、下四分位数(Q1)(箱子上下蓝色的边框):排序后第25%和第75%处的样本数值
- 中位数(箱子中间的红色线):排序后第50%处的样本数值,不受异常值影响!
<注:均值是所有数据的平均值,受异常值影响!> - 异常值(上下边缘以外的点被定义为异常值,算是异常值的阈值)
处理异常值时与3σ标准的异同:统计边界是否受异常值影响、容忍度的大小 btw:σ⇒68.2%,2σ⇒95.4%,3σ⇒99.7% 3σ标准以均值和方差作为度量,异常值对其的影响是非常大的。若按照分位数刻画的箱式图来考察的话,只要异常值不影响排序,那么异常值的大小是怎样都是什么关系的,但对于3σ标准来说,不管异常值是否影响排序,其值的任何变化都会显著影响方差σ。
所以,如果能估计出数据存在特别特别离谱的异常值时,建议可以通过箱式图来考察,去度量数据的统计特性、集中程度、分布情况等;若数据中没有太可能有太多异常值的时候,就可以用3σ标准来考察。
例子: 箱子很短,说明数据很集中;箱子很长,说明数据很分散;虚线很长,说明异常值不仅大,还非常多。所以,如果想截取一个干净的数据,就需要把分位数的上下阈值定的足够的窄才行。
常用样式
获取当前图表对象
- pyplot.plot(x, color=‘g‘) #颜色
- pyplot.plot(x, linestyle=‘—‘) #线形
- pyplot.plot(x, marker=‘+‘) #曲线上的点
- pyplot.plot(x, ‘ro-’)
标题
- pyplot.title(“xxxx”)
坐标轴标签
- pyplot.xlabel(“xxxx”)
- pyplot.ylabel(“xxxx”)
图注
- pyplot.legend(loc=“best”)
- pyplot.plot(label=“xxxx”)
网格
- pyplot.grid(color=“xxx”, linestyle="-", alpha=0.5)
x = np.arange(-5,5.5,0.5)
y = x ** 2
plt.plot(x,y,color='b',linestyle='-.',marker='o')
# 颜色/线型/标记
plt.plot(x,y,'yo--') # 可以合在一起写
plt.title("style config") # 标题
plt.xlabel("x range") # 横坐标
plt.ylabel("y range") # 纵坐标
plt.plot(x,y)
y1 = x ** 2
y2 = x ** 3
plt.plot(x,y1,'r-',label='line 1') # Label
plt.plot(x,y2,'b-',label='line 2') # Label
plt.title("style config")
plt.xlabel("x range")
plt.ylabel("y range")
plt.legend(loc=4) # Legend
plt.plot(x,y1,'r')
plt.plot(x,y2,'b')
plt.grid(color='g',linestyle=':',alpha=0.8) # 设置网格 alpha参数表示透明度(%)
小结
源码获取:关注微信公众号“AI阅读知识图谱”,回复“Python数据可视化”获取已更新内容全部代码。