节选自《Python预测之美:数据分析与算法实战》。
相关关系是一种非确定的关系,就好像身高与体重的关系一样,它们之间不能用一个固定的函数关系来表示。而相关分析就是研究这种随机变量间相关关系的统计方法。此处,主要探讨不同特征对研究对象的相关性影响。常见进行相关分析的方法,主要有散点图和相关图。
1.散点图
散点图就是数据点在直角坐标系上的分布图,通常分为散点图矩阵和三维散点图。其中散点矩阵是由变量两两组合由数据点分布图构成的矩阵,而三维散点图就是从所有变量中选择三个变量进行绘制,进一步在三维空间里观察数据的形态。
(1)散点图矩阵
Pandas是Python数据分析非常重要的一个库,它自带了很多统计分析及绘图的功能,这其中就包含散点图矩阵的绘制方法,即在Pandas.plotting模块下的scatter_matrix函数。使用该函数可快速绘制散点图矩阵。这里,我们以iris数据集为例,分析鸢尾花的Sepal.Length、Sepal.Width、Petal.Length、Petal.Width这四个指标的相关关系。并用scatter_matrix绘制散点图矩阵,代码如下:
import pandas as pd import matplotlib.pyplot as plt iris = pd.read_csv('iris.csv') # 参数说明 # figsize=(10,10) 设置画布大小为10x10 # alpha=1,设置透明度,此处设置为不透明 # hist_kwds={"bins":20} 设置对角线上直方图参数 # 可通过设置diagonal参数为kde将对角图像设置为密度图 pd.plotting.scatter_matrix(iris,figsize=(10,10),alpha=1,hist_kwds={"bins":20}) plt.show()
图3-1-3-1 使用pandas绘制散点图矩阵
如图,为所有变量的两两组合的散点图矩阵,每个散点图中呈现的是任意两变量的数据点,可通过数据点的分布,了解变量之间的相关性,对角线上为单变量的直方分布图。此图中Petal.Length与Petal.Width对应的散点图比较接近线性,说明这两个变量间的相关性较强。
此外,我们还可以使用seaborn库下面的pairplot函数来绘制散点图矩阵。针对鸢尾花的Sepal.Length、Sepal.Width、Petal.Length、Petal.Width这四个指标,使用pairplot函数绘制散点图,代码如下:
import seaborn as sns sns.pairplot(iris,hue="Species") plt.show()
图3-1-3-2 使用seaborn库绘制散点图矩阵
如代码所示,通过hue参数指定了分组的变量,这里使用鸢尾花的种类进行分组。如图3-1-3-2,对角线上的图形表示各个变量在不同鸢尾花类型下的分布情况;其他图形分别用不同颜色为数据点着色。根据该图可以更进一步地知道不同类型鸢尾花各变量的相关关系,以及线性及非线性变化规律。
然而,使用seaborn库来绘制散点图矩阵有个问题,就是不能同时用颜色和形状来表示分类。有数据分析中,我们经常会有这样的需求,即用颜色来表示真实的类别,用形状来表示预测的类别,那么通过一个图就可以直观地看到预测建模的效果。既然seaborn不能直接支持,那该如何实现呢?我们可以基于matplotlib库自己实现,自定义函数pair_plot,代