一、理论知识:
要理解 Pearson 相关系数,首先要理解协方差(Covariance)。协方差表示两个变量 X,Y 间相互关系的数字特征,其计算公式为:
当 Y = X 时,即与方差相同。当变量 X,Y 的变化趋势一致时,如果某个 Xi 大于 X¯,相应的 Yi 也大于 Y¯;如果某个 Xi小于 X¯,相应的 Yi 也小于¯Y¯,那么 COV(X,Y)COV(X,Y) 就是正值,当变量 X,Y 的变化趋势相反时,那么 COV(X,Y)COV(X,Y) 就是负值。
Pearson 相关系数公式如下:
由公式可知,Pearson 相关系数是用协方差除以两个变量的标准差得到的,虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),但其数值上受量纲的影响很大,不能简单地从协方差的数值大小给出变量相关程度的判断。为了消除这种量纲的影响,于是就有了相关系数的概念。
当相关系数为1时,成为完全正相关;当相关系数为-1时,成为完全负相关;相关系数的绝对值越大,相关性越强;相关系数越接近于0,相关度越弱。
二、函数:Pearsonr(x,y)
1)输入:x为特征,y为目标变量.
2)输出:r: 相关系数 [-1,1]之间,p-value: p值。
注: p值越小,表示相关系数越显著,一般p值在500个样本以上时有较高的可靠性。
三、python实现Pearson correlation coefficient
############导包#################
import numpy as np
from scipy.stats import pearsonr
import csv
############导入数据#############
Housing_dataset = np.loadtxt('./dataset/Housing_dataset03.csv',delimiter=",",skiprows=1)
############切分数据#############
X = Housing_dataset[:,1:-1]
y = Housing_dataset[:,-1:]
print(X.shape)
print(y.shape)
#############Pearsonr分析#########
for i in range(0,13,1):
x = X[:,i].reshape(-1,1)
print(x.shape)
#------------pearsonr(x,y)-------------
result = pearsonr(x,y)
#------------保存结果--------------------
with open('./dataset/Pearsonr_dataset03.csv','a+',encoding='GB18030',newline="")as file_write:
result_writer = csv.writer(file_write)
result_writer.writerow(result)
Reference:
https://blog.csdn.net/huangfei711/article/details/78456165
https://blog.csdn.net/zhouwenyuan1015/article/details/65938847