一、协方差(Covariance)
协方差是一个反映两个随机变量相关程度的指标,比如,一个人的身高和体重是否存在一些联系。公式如下:
如果结果为正值,则说明两者是正相关的,也就是说一个人身高越高体重越重。
如果结果为负值, 就说明两者是负相关。
如果为0,则两者之间没有关系,身高和体重之间没有关联。
二、皮尔逊相关系数(Pearson Correlation Coefficient)
Pearson相关系数是用协方差除以两个变量的标准差得到的,公式如下:
虽然协方差能反映两个随机变量的相关程度(协方差大于0的时候表示两者正相关,小于0的时候表示两者负相关),但是协方差值的大小并不能很好地度量两个随机变量的关联程度,例如,现在二维空间中分布着一些数据,我们想知道数据点坐标X轴和Y轴的相关程度,如果X与Y的相关程度较小但是数据分布的比较离散,这样会导致求出的协方差值较大,用这个值来度量相关程度是不合理的。
为了更好的度量两个随机变量的相关程度,引入了Pearson相关系数,其在协方差除以两个变量的标准差。pearson是一个介于-1和1之间的值,当两个变量的线性关系增强时,相关系数趋于1或-1;
当相关系数为0时,X和Y两变量无关系。
当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。
当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。
下图描述Pearson相关系数从-1到1的图像。