Pearson相关系数

最新推荐文章于 2024-05-19 18:40:03 发布

JiZhG

最新推荐文章于 2024-05-19 18:40:03 发布

阅读量2k

点赞数

分类专栏：统计学文章标签：相关系数皮尔逊相关系数因果关系

本文链接：https://blog.csdn.net/JiZhG/article/details/48058459

版权

统计学专栏收录该内容

2 篇文章 1 订阅

订阅专栏

定义

统计上，经常用Pearson矩相关系数来衡量两个变量 $X$ 和 $Y$ 的线性相关性，皮尔逊相关系数介于-1和1之间，1代表完全正相关，0代表不相关，-1代表完全负相关。两个变量的皮尔逊相关系数定义为这两个变量的协方差除以它们的标准差乘积。

对于总体，我们记皮尔逊相关系数为 $\rho$ ，计算公式为

ρ X, Y = cov ( X , Y ) σ X σ Y

$\rho_{X,Y}=\frac{\text{cov}(X,Y)}{\sigma_X\sigma_Y}$
这里，

(cov) $\text(cov)$ 代表协方差，

σX $\sigma_X$ 代表

X $X$ 的标准误。因为

X,Y $X,Y$ 的协方差计算公式为

cov (X, Y) = E [(X - μ x) (Y - μ Y)]

$\text{cov}(X,Y)=E[(X-\mu_x)(Y-\mu_Y)]$
所以上面的相关系数计算公式还可以写为

ρ X, Y = E [ ( X - μ X ) ( Y - μ Y ) ] σ X σ Y σ X σ Y

$\rho_{X,Y}=\frac{E[(X-\mu_X)(Y-\mu_Y)]{\sigma_X\sigma_Y}}{\sigma_X\sigma_Y}$
这里，

μX $\mu_X$ 代表

X $X$ 的均值，

E $E$ 代表期望。

ρ $\rho$ 还可以写成非中心矩的形式。因为

μ X = E (X) μ Y = E (Y) σ 2 X = E [(X - E (X)) 2] = E (X 2) - E (X) 2 σ 2 Y = E [(X - E (Y)) 2] = E (Y 2) - E (Y) 2 E [(X - μ X) (Y - μ Y)] = E [(X - E (X)) (Y - E (Y))] = E (X Y) - E (X) E (Y)

$\mu_X=E(X)\\ \mu_Y=E(Y)\\ \sigma^2_X=E[(X-E(X))^2]=E(X^2)-E(X)^2\\ \sigma^2_Y=E[(X-E(Y))^2]=E(Y^2)-E(Y)^2\\ E[(X-\mu_X)(Y-\mu_Y)]=E[(X-E(X))(Y-E(Y))]\\ =E(XY)-E(X)E(Y)$
所以上面的公式还可以写为

ρ X, Y = E ( X Y ) - E ( X ) E ( Y ) E ( X 2 ) - E ( X ) 2 - - - - - - - - - - - - - \sqrt E ( Y 2 ) - E ( Y ) 2 - - - - - - - - - - - - \sqrt

$\rho_{X,Y}=\frac{E(XY)-E(X)E(Y)}{\sqrt{E(X^2)-E(X)^2}\sqrt{E(Y^2)-E(Y)^2}}$
对于样本，我们用

r $r$ 代表样本皮尔逊相关系数。我们可以用样本协方差和标准差代替总体方差和标准差来计算样本相关系数。比如

(x1,x2,...,xn) $(x_1,x_2,...,x_n)$ 为一组观测样本，

(y1,y2,...,yn) $(y_1,y_2,...,y_n)$ 为另外一组观测样本，那么

r $r$ 的计算公式就可以写为：

r = r x y = \sum n i = 1 ( x i - x ¯ ) ( y i - y ¯ ) \sum n i = 1 ( x i - x ¯ ) 2 - - - - - - - - - - - \sqrt \sum n i = 1 ( y i - y ¯ ) 2 - - - - - - - - - - - \sqrt

$r=r_{xy}=\frac{\sum^n_{i=1}(x_i- \overline{x})(y_i- \overline{y})}{\sqrt{\sum^n_{i=1}(x_i- \overline{x})^2}\sqrt{\sum^n_{i=1}(y_i- \overline{y})^2}}$
这里

n $n$ 代表样本个数，

x¯ $\overline{x}$ 代表样本均值，

y¯ $\overline{y}$ 类似。简单的推导可以得出这个公式的三个等价形式：

r = r x, y = \sum x i y i - n x ¯ y ¯ ( \sum x 2 i - n x ¯ 2 ) - - - - - - - - - - - \sqrt ( \sum y 2 i - n y ¯ 2 ) - - - - - - - - - - - \sqrt

$r=r_{x,y}=\frac{\sum x_iy_i-n\overline{x}\overline{y}}{\sqrt{(\sum x_i^2-n\overline{x}^2)}\sqrt{(\sum y_i^2-n\overline{y}^2)}}$

r = r x, y = 1 n - 1 \sum i = 1 n (x i - x ¯ s x) (y i - y ¯ s y)

$r=r_{x,y}=\frac{1}{n-1}\sum_{i=1}^n\left(\frac{x_i-\overline{x}}{s_x}\right)\left(\frac{y_i-\overline{y}}{s_y}\right)$
以及

r = r x, y = \sum x i y i - n x ¯ y ¯ ( n - 1 ) s x s y

$r=r_{x,y}=\frac{\sum x_iy_i-n\overline{x}\overline{y}}{(n-1)s_xs_y}$
这里

sx=1n−1∑ni=1(xi−x¯)2−−−−−−−−−−−−−−√ $s_x=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2}$ 代表样本标准误差，而

(xi−x¯sx) $(\frac{x_i-\overline{x}}{s_x})$ 就是样本的标准分数或者z-分数。

皮尔逊相关系数的数学性质及几何意义

不论是样本还是总体，皮尔逊相关系数绝对值总是小于等于1的。如果相关系数等于 $1$ 或者 $-1$ ，对于样本来说代表样本点完全在同一条直线上，对于总体来说两个变量的分布由一条直线支撑。同时皮尔逊相关系数具有对称性，即 $\text{corr}(X,Y)=\text{corr}(Y,X)$ .。
皮尔逊相关系数一个非常重要的性质就是不随着两个变量的位置改变、大小缩放而改变。比如，把 $X$ 变为 $a+bX$ ，把 $Y$ 变为 $c+dY$ 不改变它们之间的相关系数，这里 $a,b,c,d$ 为定值且 $b$ 和 $d$ 大于0。也就是说，一般的线性变换不改变它们的相关系数。
下面是几个皮尔逊相关系数的例子。

这里写图片描述

相关系数介于0和1之间。相关系数为1就意味着 $X$ 和 $Y$ 落在同一条直线上，呈正相关， $Y$ 随着 $X$ 的增大而增大，随着 $X$ 的减小而减小。相关系数为 $-1$ 说明 $X,Y$ 负相关，相关系数为0就意味着 $X$ 和 $Y$ 没有线性相关关系。

更一般的，当且仅当 $X_i$ 和 $Y_i$ 落在各自均值的同一侧时， $(X_i-\overline{X})(Y_i-\overline{Y})$ 为正。因此当 $X_i$ 和 $Y_i$ 相对于均值倾向于同时增加或者同时减小时相关系数为正。反之，相关系数为负。而且这种趋势越强就说明相关系数的绝对值越大。

如果数据经过了标准化处理，那么皮尔逊相关系数表示的就是这两个 $n$ 维向量夹角的余弦值。也就是说如果有 $\overline{x}=0$ ， $\overline{y}=0$ ，则相关系数就可以变为

r x, y = \sum x i y i \sum x 2 i - - - - \sqrt \sum y 2 i - - - - \sqrt = x \cdot y | | x | | \cdot | | y | | = cos (x, y)

$r_{x,y}=\frac{\sum x_iy_i}{\sqrt{\sum x_i^2}\sqrt{\sum y_i^2}}=\frac{x\cdot y}{||x||\cdot||y||}=\cos(x,y)$

注意事项

皮尔逊相关系数非常有用，但也不能滥用，我们来看一些需要注意的地方。

皮尔逊相关系数是一个线性关系测度，但 r <script type="math/tex" id="MathJax-Element-58">r</script>比较小不能代表变量间没有关系，只能说明变量间没有线性关系或者线性关系比较弱。实际上变量间可能存在非线性关系（下图有几个非线性关系例子），对数据进行一些合适的变换可以增大它们之间的线性关系。
解释相关系数时要考虑实际情况。比如你可能计算出一些人鞋子大小和智商高低相关系数非常大，但这很显然是不合理的，这时相关系数比较大可能仅仅是巧合。
相关不代表因果，不能把相关系数和因果关系混在一起。比如夏天冰激凌销量大，冷饮销量也比较大，它们之间存在相关关系，但我们不能说是冰激凌销量大导致冷饮销量也大，这完全是两码事，实际上温度才是导致它们销量上升的原因。
相关系数和回归系数也要区分开，相关系数不代表直线斜率。

这里写图片描述