相关性分析：皮尔逊相关系数——python实现Pearson correlation coefficient

最新推荐文章于 2024-09-11 12:03:23 发布

无穷QQ君

最新推荐文章于 2024-09-11 12:03:23 发布

阅读量2.2w

点赞数 16

分类专栏： Deep Learning 机器学习文章标签：相关性分析皮尔逊相关系数

本文链接：https://blog.csdn.net/June19/article/details/100821365

版权

Deep Learning 同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

机器学习

10 篇文章 1 订阅

订阅专栏

一、理论知识：

要理解 Pearson 相关系数，首先要理解协方差（Covariance）。协方差表示两个变量 X，Y 间相互关系的数字特征，其计算公式为：

当 Y = X 时，即与方差相同。当变量 X，Y 的变化趋势一致时，如果某个 Xi 大于 X¯，相应的 Yi 也大于 Y¯；如果某个 Xi小于 X¯，相应的 Yi 也小于¯Y¯，那么 COV(X,Y)COV(X,Y) 就是正值，当变量 X，Y 的变化趋势相反时，那么 COV(X,Y)COV(X,Y) 就是负值。

Pearson 相关系数公式如下：

由公式可知，Pearson 相关系数是用协方差除以两个变量的标准差得到的，虽然协方差能反映两个随机变量的相关程度（协方差大于0的时候表示两者正相关，小于0的时候表示两者负相关），但其数值上受量纲的影响很大，不能简单地从协方差的数值大小给出变量相关程度的判断。为了消除这种量纲的影响，于是就有了相关系数的概念。

当相关系数为1时，成为完全正相关；当相关系数为-1时，成为完全负相关；相关系数的绝对值越大，相关性越强；相关系数越接近于0，相关度越弱。

二、函数：Pearsonr（x,y）

1）输入：x为特征，y为目标变量.

2）输出：r：相关系数 [-1，1]之间，p-value: p值。

注： p值越小，表示相关系数越显著，一般p值在500个样本以上时有较高的可靠性。

三、python实现Pearson correlation coefficient

############导包#################
import numpy as np
from scipy.stats import pearsonr
import csv
############导入数据#############
Housing_dataset = np.loadtxt('./dataset/Housing_dataset03.csv',delimiter=",",skiprows=1)
############切分数据#############
X = Housing_dataset[:,1:-1]
y = Housing_dataset[:,-1:]
print(X.shape)
print(y.shape)
#############Pearsonr分析#########
for i in range(0,13,1):
    x = X[:,i].reshape(-1,1)
    print(x.shape)
    #------------pearsonr（x,y）-------------
    result = pearsonr(x,y)    
    #------------保存结果--------------------
    with open('./dataset/Pearsonr_dataset03.csv','a+',encoding='GB18030',newline="")as file_write:
        result_writer = csv.writer(file_write)
        result_writer.writerow(result)

Reference：

https://blog.csdn.net/huangfei711/article/details/78456165

https://blog.csdn.net/zhouwenyuan1015/article/details/65938847