python数据可视化matplotlib(上)
Matplotlib 是支持 Python 语言的开源绘图库,因为其支持丰富的绘图类型、简单的绘图方式以及完善的接口文档,深受 Python 工程师、科研学者、数据工程师等各类人士的喜欢。既然那么多人喜欢,那肯定挺好用的,那就开讲吧。
安装
如果你用的是anaconda,那就不用安装了,它本身就自带matplotlib的(许多数据分析的常用工具包都有,非常适合不做工程开发的数据分析小伙伴。)
pip install matplotlib
导入
%matplotlib inline
from matplotlib import pyplot as plt
显示设置:
- 在notebook模式下 :
%matplotlib inline
- 在ipython模式下
%pylab inline
画布
figure()
要画画先得有个画布,对吧。
#首先创建一个画布
plt.figure()
plt.show()
plt.figure(figsize=(18,4))
plt.show()
plt.figure(figsize=(16,1))
plt.show()
输出:
<Figure size 432x288 with 0 Axes>
<Figure size 1296x288 with 0 Axes>
<Figure size 1152x72 with 0 Axes>
对比发现,默认大小为 6:4,比例中1代表73个像素点。自由发挥,按需设置。
如果想要在一个画布中绘制多张图呢?
subplot()
想要一个2*2
的画布,我们可以通过subplot(2,2,i),i表示取得第i个位置。
plt.figure(figsize=(18,4))
plt.subplot(2,2,1)
plt.xticks(())#设置坐标轴的刻度和标签以及旋转角度,如果没有会显示出来坐标轴的刻度
plt.yticks(())#设置坐标轴的刻度和标签以及旋转角度,如果没有会显示出来坐标轴的刻度
plt.text(0.5,0.5,'subplot(2,2,1)',ha='center',va='center',size=20,alpha=5)#alpha参数表示显示字体的深度
plt.subplot(2,2,2)
plt.xticks(())
plt.yticks(())
plt.text(0.5,0.5,'subplot(2,2,2)',ha='center',va='center',size=20,alpha=.5)
plt.subplot(2,2,3)
plt.xticks(())
plt.yticks(())
plt.text(0.5,0.5,'subplot(2,2,3)',ha='center',va='center',size=20,alpha=.5)
plt.subplot(2,2,4)
plt.xticks(())
plt.yticks(())
plt.text(0.5,0.5,'subplot(2,2,4)',ha='center',va='center',size=20,alpha=.5)
plt.tight_layout()
plt.show()
效果:
这样是不是很用以就看出来,每个位置该怎么操作了。难道只有这种布局方式吗?当然不是啦,强大的matplotlib还支持通过”切片“
来设置
%matplotlib inline
from matplotlib import pyplot as plt
import matplotlib.gridspec as gridspec
plt.figure(figsize=(18,4))
G = gridspec.GridSpec(3,3)
#通过这个gridspec对象来分配一张图的空间,并让子图通过索引的方式来获得显示区域
axes_i = plt.subplot(G[0,:])#取得第一行的所有列
plt.xticks(())
plt.yticks(())
plt.text(0.5,0.5,'Axes1',ha='center',va='center',size=20,alpha=.5)
axes_i = plt.subplot(G[1:,0])#第二行起到最后一行的第一列
plt.xticks(())
plt.yticks(())
plt.text(0.5,0.5,'Axes2',ha='center',va='center',size=20,alpha=.5)
axes_i = plt.subplot(G[1:,-1]))#第二行起到最后一行的最后一列
plt.xticks(())
plt.yticks(())
plt.text(0.5,0.5,'Axes3',ha='center',va='center',size=20,alpha=.5)
axes_i = plt.subplot(G[1,-2])#第二行的倒数第二列
plt.xticks(())
plt.yticks(())
plt.text(0.5,0.5,'Axes4',ha='center',va='center',size=20,alpha=.5)
axes_i = plt.subplot(G[-1,-2])#最后一行的倒数第二列
plt.xticks(())
plt.yticks(())
plt.text(0.5,0.5,'Axes5',ha='center',va='center',size=20,alpha=.5)
plt.tight_layout()
plt.show()
效果:
将一个划分分成一个n*n的画布,然后通过切片的方式来定义图片的位置,将想要画的图像放在指定的位置。
画布准备好了,那就画画其他的吧。
折线图plot()
折线图可以呈现数据的变化趋势。
前面,我们从 Matplotlib 中导入了 pyplot
绘图模块,并将其简称为 plt
。pyplot
模块是 Matplotlib 最核心的模块,几乎所有样式的 2D 图形都是经过该模块绘制出来的.。至于为什么简称为plt
,是约定俗成的,想与众不同就定义成自己想要的吧。
plt.plot()
是 pyplot
模块下面的直线绘制(折线图)方法类。(不过它也可以其他的图。)
plt.plot([2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16],
[1, 2, 3, 2, 1, 2, 3, 4, 5, 6, 5, 4, 3, 2, 1])
plot要传入的第一个是*args。这里主要将需要画图的x、y坐标放到列表或者数组中传入即可(需要按照x,y的顺序传入)。
%matplotlib inline
form matplot import pyplot as plt
import numpy as np
# 在 -2PI 和 2PI 之间等间距生成 1000 个值,也就是 X 坐标
X = np.linspace(-2*np.pi, 2*np.pi, 1000)
y1 = x**2# 计算 y 坐标
y2 = 2*X# 计算 y 坐标
plt.plot(X,y1,X,y2)# 向方法中 `*args` 输入 X,y 坐标
按照这种方式就可以将多个图像绘制在一起了。图像中的设置在中篇中介绍。
阶梯图step()
在绘制ROC曲线的时候可以用一用哦。
n = np.array([0, 1, 2, 3, 4, 5])
plt.figure()
plt.step(n, n**2)
柱形图bar()
柱形图可以描述数据量的多少;可以进行不同维度之间的数据对比等。
柱形图 matplotlib.pyplot.bar(*args, **kwargs)
plt.bar([1, 2, 3], [1, 2, 3])
直方图hist()
直方图能够让我们了解连续变量的分布及稳定性。
#概率分布直方图(均值:0,方差:1)
mean = 0
sigma = 1
x=mean+sigma*np.random.randn(10000)
plt.figure()
#第二个参数代表分组的数量
plt.hist(x,40,facecolor='yellowgreen',alpha=0.75)
plt.show()
plt.hist(x, bins=None, range=None, density=None, weights=None, cumulative=False, bottom=None, histtype='bar', align='mid', orientation='vertical', rwidth=None, log=False, color=None, label=None, stacked=False, normed=None, *, data=None, **kwargs)
最主要的是前两个参数,第一个是传入一个连续变量,第二个参数是一个分组变量,如果把组的数量定得越大,那么柱子就越细。
饼图pie()
饼图可以看出离散变量的分布情况、占比情况。
饼状图通过 matplotlib.pyplot.pie()
绘出。我们也可以进一步设置它的颜色、标签、阴影等各类样式。下面就绘出一个示例。
label = 'Cat', 'Dog', 'Cattle', 'Sheep', 'Horse' # 各类别标签
color = 'r', 'g', 'r', 'g', 'y' # 各类别颜色
size = [1, 2, 3, 4, 5] # 各类别占比
# 绘制饼状图
plt.pie(size, colors=color,
labels=label, shadow=True, autopct='%1.1f%%')
# 饼状图呈正圆
plt.axis('equal')
散点图scatter()
散点图能够展示点的分布情况。
散点图 matplotlib.pyplot.scatter(*args, **kwargs)
就是呈现在二维平面的一些点,这种图像的需求也是非常常见的。
# X,y 的坐标均有 numpy 在 0 到 1 中随机生成 1000 个值
X = np.random.ranf(600)
y = np.random.ranf(600)
# 向方法中 `*args` 输入 X,y 坐标
plt.scatter(X, y)
量场图 quiver()
这个了解一下,用的可能会比较少。
量场图 matplotlib.pyplot.quiver(*args, **kwargs)
就是由向量组成的图像,在气象学
等方面被广泛应用。从图像的角度来看,量场图就是带方向的箭头符号。
X, y = np.mgrid[0:10, 0:10]
plt.quiver(X, y)
热力图/等高线图 meshgrid()
热力图 / 等高线图 matplotlib.pyplot.contourf(*args, **kwargs)
# 生成网格矩阵
x = np.linspace(-5, 5, 500)
y = np.linspace(-5, 5, 500)
X, Y = np.meshgrid(x, y)#构造一个网格
# 等高线计算公式
Z = (1 - X / 2 + X ** 3 + Y ** 5) * np.exp(-X ** 2 - Y ** 2)
plt.contourf(X, Y, Z)
x,y主要是确定一个网格坐标点,图上呈现什么样的颜色靠z的值来决定。
3D图
%matplotlib inline
from matplotlib import pyplot as plt
import numpy as np
from mpl_toolkits.mplot3d import Axes3D
fig = plt.figure()
ax = Axes3D(fig)
x = np.arange(-4,4,0.25)
y = np.arange(-4,4,0.25)
X,Y = np.meshgrid(x,y)
R = np.sqrt(X**2+Y**2)
Z = np.sin(R)
ax.plot_surface(X,Y,Z, rstride=1,cstride=1,cmap=plt.get_cmap('rainbow'))
plt.show()
rstride=1,cstride=1
这两个参数是成对出现的,用于控制色块的大小,改打了方块会很大,然后很丑。(我就不试了,想看的自己运行一下,嘻嘻)。
保存图像
画完了当然得把他保存一下啦。
plt.savefig("photo.jpg")
写在最后
这里包含了大部分常用的基本图形,以及matplotlib的基本绘图方法。官方文档里有许多值得我们探索的东西,我这里只是把一些常用的内容记录下来,想要深入了解的官方文档你值得拥有。光看收获是不大的,自己动动手才能把知识记牢,才能探索出更好玩的东西。