协方差与相关系数的区别和联系。
协方差:
- 公式:
C
o
v
(
X
,
Y
)
=
E
[
(
X
−
μ
x
)
(
Y
−
μ
y
)
]
Cov(X,Y) = E[(X-\mu_x)(Y-\mu_y)]
Cov(X,Y)=E[(X−μx)(Y−μy)]
协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
注:协方差大小,会受X,Y数据大小的影响,所以只能通过协方差的正负,来判断是正相关还是负相关,不能反映相关性的程度,所以相关系数就此诞生
相关系数:
- 公式:
ρ
=
C
o
v
(
X
,
Y
)
ρ
x
ρ
y
\rho = \frac{Cov(X,Y)} {\rho_x \rho_y}
ρ=ρxρyCov(X,Y)
公式翻译一下,就是XY的协方差除X的标准差和Y的标准差
所以,相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。是用来研究变量之间线性相关程度的量,取值范围是[-1,1]。
可参考
如何通俗易懂地解释「协方差」与「相关系数」的概念?
(https://www.zhihu.com/question/20852004)