一、方差
S
=
σ
2
=
∑
n
=
1
N
(
x
n
−
x
ˉ
)
2
N
S =\sigma^{2}= \frac{\sum_{n=1}^{N}(x_{n}-\bar{x})^{2}}{N}
S=σ2=N∑n=1N(xn−xˉ)2
表示的是
x
x
x的离散程度,离散程度约大,方差也越大。
标准差
σ
=
∑
n
=
1
N
(
x
n
−
x
ˉ
)
2
N
\sigma=\sqrt{\frac{\sum_{n=1}^{N}(x_{n}-\bar{x})^{2}}{N}}
σ=N∑n=1N(xn−xˉ)2
标准差,又叫均方差,是方差的算术平方根。
二、协方差
c
o
v
(
X
,
Y
)
=
E
[
(
X
−
E
[
X
]
)
(
Y
−
E
[
Y
]
)
]
cov(X,Y) =E[(X-E[X])(Y-E[Y])]
cov(X,Y)=E[(X−E[X])(Y−E[Y])]
协方差表示的是两个变量之间的线性相关性,协方差越大,两个变量线性性越强,协方差为0,代表两个变量线性无关。
当X=Y时,协方差就变成了方差。也就是方差是协方差的特例。
相关系数
相关系数是通过方差对协方差的归一化。通过相关系数可以看出是X与Y的相关性更强还是Z与Y的相关性更强。
η
=
c
o
v
(
X
,
Y
)
v
a
r
(
X
)
v
a
r
(
Y
)
\eta = \frac{cov(X,Y)}{\sqrt{var(X)var(Y)}}
η=var(X)var(Y)cov(X,Y)
相关系数的取值范围为[-1,1],1表示完全线性相关,−1表示完全线性负相关,0表示线性无关。线性无关并不代表完全无关,更不代表相互独立。
三、协方差矩阵
其中,每一个协方差计算方式如下
c
o
v
(
X
2
,
X
1
)
=
∑
j
=
1
m
(
x
2
j
−
x
ˉ
2
)
(
x
1
j
−
x
ˉ
1
)
m
−
1
cov(X_{2},X_{1})=\frac{\sum_{j=1}^{m}(x_{2j}-\bar{x}_{2})(x_{1j}-\bar{x}_{1})}{m-1}
cov(X2,X1)=m−1∑j=1m(x2j−xˉ2)(x1j−xˉ1)
个人理解:一般求协方差矩阵都是标准化后的向量。
参考地址