基于Python实现相关分析案例mp.weixin.qq.com
节选自《Python预测之美:数据分析与算法实战》
相关关系是一种非确定的关系,就好像身高与体重的关系一样,它们之间不能用一个固定的函数关系来表示。而相关分析就是研究这种随机变量间相关关系的统计方法。此处,主要探讨不同特征对研究对象的相关性影响。常见进行相关分析的方法,主要有散点图和相关图。
1.散点图
散点图就是数据点在直角坐标系上的分布图,通常分为散点图矩阵和三维散点图。其中散点矩阵是由变量两两组合由数据点分布图构成的矩阵,而三维散点图就是从所有变量中选择三个变量进行绘制,进一步在三维空间里观察数据的形态。
(1)散点图矩阵
Pandas是Python数据分析非常重要的一个库,它自带了很多统计分析及绘图的功能,这其中就包含散点图矩阵的绘制方法,即在Pandas.plotting模块下的scatter_matrix函数。使用该函数可快速绘制散点图矩阵。这里,我们以iris数据集为例,分析鸢尾花的Sepal.Length、Sepal.Width、Petal.Length、Petal.Width这四个指标的相关关系。并用scatter_matrix绘制散点图矩阵,代码如下:
import pandas as pdimport matplotlib.pyplot as pltiris = pd.read_csv('iris.csv')# 参数说明# figsize=(10,10) 设置画布大小为10x10# alpha=1,设置透明度,此处设置为不透明# hist_kwds={"bins":20} 设置对角线上直方图参数# 可通过设置diagonal参数为kde将对角图像设置为密度图pd.plotting.scatter_matrix(iris,figsize=(10,10),alpha=1,hist_kwds={"bins":20})plt.show()
图3-1-3-1 使用pandas绘制散点图矩阵
如图,为所有变量的两两组合的散点图矩阵,每个散点图中呈现的是任意两变量的数据点,可通过数据点的分布,了解变量之间的相关性,对角。。。