相关系数 r r r和决定系数 R 2 R^2 R2的那些事
有人说相关系数(correlation coefficient, r r r)和决定系数(coefficient of determination, R 2 R^2 R2,读作R-Squared)都是评价两个变量相关性的指标,且相关系数的平方就是决定系数?这种说法对不对呢?请听下文分解!
协方差与相关系数
要说相关系数,我们先来聊聊协方差。在之前的博文《使用Python计算方差协方差相关系数》中提到协方差是计算两个随机变量 X X X和 Y Y Y 之间的相关性的指标,定义如下:
C o v ( X , Y ) = E [ ( X − E X ) ( Y − E Y ) ] \mathrm{Cov}(X, Y) = \mathrm{E}[(X - \mathrm{E}X)(Y - \mathrm{E}Y)] Cov(X,Y)=E[(X−EX)(Y−EY)]
但是协方差有一个确定:它的值会随着变量量纲的变化而变化(covariance is not scale invariant),所以,这才提出了相关系数的概念:
r = C o r r ( X , Y ) = C o v ( X , Y ) σ X ⋅ σ Y = E [ ( X − E X ) ( Y − E Y ) ] E [ X − E X ] 2 E [ Y − E Y ] 2 r = \mathrm{Corr}(X, Y) = \frac{Cov(X, Y)}{\sigma_X \cdot \sigma_Y} = \frac{\mathrm{E}[(X - \mathrm{E}X)(Y - \mathrm{E}Y)]}{\sqrt{\mathrm{E}[X - \mathrm{E}X]^2}\sqrt{\mathrm{E}[Y - \mathrm{E}Y]^2}} r=Corr(X,Y)=σX⋅σYCov(X,Y)=E[X−EX]2