python 相关分析

最新推荐文章于 2024-07-26 17:36:26 发布

是鱼儿啊～

最新推荐文章于 2024-07-26 17:36:26 发布

阅读量7.4k

点赞数 3

分类专栏： Python 统计分析文章标签： python 机器学习开发语言

本文链接：https://blog.csdn.net/sinat_39027078/article/details/126956677

版权

1、背景

用于考察变量间数量关联密切程度的统计分析方法，比如身高越高，体重一般会越大。

几乎所有涉及到多个变量的假设检验方法，都可以被看做是这些变量间的关联性分析。

1、t检验：分组变量与连续因变量间的关联性分析

2、卡方检验：行、列分类变量间的关联性分析

3、聚类分析：案例间的关联性分析

4、多变量回归：因变量和一组自变量间的关联性分析

以下是常见的相关分析以及代码实现：

2、连续变量的相关分析

2.1 使用条件

两个变量都是连续正态连续变量，且两者之间呈线性关系。备注:在进行相关分析之前进行图表展示以查看数据是否为线性分布

# 图表展示的代码

import matplotlib.pyplot as plt
plt.scatter(x,y) #使用散点图
plt.show()

2.2 使用系数 pearson

2.2.1 系数计算逻辑

计算两个变量的协方差，协方差可以放映两个随机变量的相关程度，但是可能存在二维空间中分布的一些数据，变量之间相关程度较小，但是数据分布的比较离散，这样会导致求出的协方差值较大，只用协方差就不合理，所以pearson相关系数是在协方差的基础上除以两个随机变量的标准差。

2.2.2 系数公式

$\rho_{X,Y }=\frac{cov(X,Y))}{\sigma _{X}\sigma _{Y}} = \frac{E[(X-\mu_{X })(Y-\mu_{Y })]}{\sigma _{X}\sigma _{Y}}$

2.2.3 结果解释

该系数结果是一个-1到1之间的值，绝对值越大表明相关性越强，正数为正相关，负数为相关，相关系数为0，表明它们之间不存在线性相关关系。

2.3 应用案例

#调用代码
np.corrcoef(a)#可计算行与行之间的相关系数，
np.corrcoef(a,rowvar=0)#用于计算各列之间的相关系数


#应用案例
import numpy as np 
data = np.array([[10, 10, 8, 9, 7],  
       [4, 5, 4, 3, 3],  
       [3, 3, 1, 1, 1]])

np.corrcoef(data) 
#输出结果，可见第一组数据和第三组数据相关性挺高
'''
array([[ 1.        ,  0.64168895,  0.84016805],
       [ 0.64168895,  1.        ,  0.76376262],
       [ 0.84016805,  0.76376262,  1.        ]])
'''
np.corrcoef(data,rowvar=0) #用于计算列之间的相关系数
#输出结果
'''
array([[ 1.        ,  0.98898224,  0.9526832 ,  0.9939441 ,  0.97986371],
       [