说明:这里只考虑随机变量总体的参数,而不是从统计学的角度考虑样本的统计量
1. 协方差
意义:在概率论和统计中,协方差是对两个随机变量联合分布线性相关程度的一种度量。两个随机变量
越线性相关,协方差越大, 两个变量完全线性无关,协方差为零。
协方差的定义如下:
c
o
v
(
X
,
Y
)
=
E
[
(
X
−
E
(
X
)
∗
(
Y
−
E
(
Y
)
)
]
cov(X,Y)=E[(X-E(X)*(Y-E(Y))]
cov(X,Y)=E[(X−E(X)∗(Y−E(Y))](我这里用“
∗
*
∗”表示python中的元素分别相乘)
当X,Y是同一个随机变量时,X与其自身的协方差就是X的方差,可以说方差是协方差的一个特例。
对于一维随机变量,我们研究的是这两个随机变量之间的关系
设有两个随机变量
X
,
Y
X,Y
X,Y,分别有m个样本
x
1
,
x
2
,
.
.
.
,
x
m
x_1,x_2,...,x_m
x1,x2,...,xm 和
y
1
,
y
2
,
.
.
.
,
y
m
y_1,y_2,...,y_m
y1,y2,...,ym
展开来说就是:
c
o
v
(
X
,
Y
)
=
∑
i
n
(
x
i
−
x
‾
)
(
y
i
−
y
‾
)
m
cov(X,Y)=\frac{\sum_i^n(x_i-\overline{x})(y_i-\overline{y})}{m}
cov(X,Y)=m∑in(xi−x)(yi−y)
对于多维向量,我们研究的是某两个维度之间的关系(把每一个维度看成一个随机变量)
2. 协方差矩阵(covariance matrix,C)
协方差矩阵的概念一般是定义在多维随机变量上的,
设n维随机变量
X = [ X 1 X 2 ⋮ X n ] X= \begin{bmatrix} X_{1} \\ X_{2} \\ \vdots \\ X_{n} \\ \end{bmatrix} X=⎣⎢⎢⎢⎡X1X2⋮Xn⎦⎥⎥⎥⎤
取样本矩阵
x
=
[
x
11
x
12
⋯
x
1
m
x
21
x
22
⋯
x
2
m
⋮
⋮
⋱
⋮
x
n
1
x
n
2
⋯
x
n
m
]
x= \begin{bmatrix} x_{11}& x_{12} & \cdots &x_{1m} \\ x_{21}& x_{22} & \cdots &x_{2m} \\ \vdots& \vdots & \ddots &\vdots \\ x_{n1}& x_{n2} & \cdots &x_{nm} \\ \end{bmatrix}
x=⎣⎢⎢⎢⎡x11x21⋮xn1x12x22⋮xn2⋯⋯⋱⋯x1mx2m⋮xnm⎦⎥⎥⎥⎤
那么其中两个维度的协方差为
c
o
v
(
X
i
,
X
j
)
=
∑
k
=
1
m
(
x
i
k
−
x
i
‾
)
(
x
j
k
−
x
j
‾
)
m
cov(X_i,X_j)=\frac{\sum^m_{k=1}(x_{ik}-\overline{x_{i}})(x_{jk}-\overline{x_{j}})}{m}
cov(Xi,Xj)=m∑k=1m(xik−xi)(xjk−xj)
(其中
X
i
,
X
j
X_i, X_j
Xi,Xj分别代表所有样本的第 i 和第 j 维的元素构成向量。)
设
c
i
j
=
c
o
v
(
X
i
,
X
j
)
c_{ij}=cov(X_i,X_j)
cij=cov(Xi,Xj),那么有
C
=
(
c
i
j
)
n
×
n
=
[
c
11
c
12
⋯
c
1
n
c
21
c
22
⋯
c
2
n
⋮
⋮
⋱
⋮
c
n
1
c
n
2
⋯
c
n
n
]
C=(c_{ij})_{n \times n}= \begin{bmatrix} c_{11}& c_{12} & \cdots &c_{1n} \\ c_{21}& c_{22} & \cdots &c_{2n} \\ \vdots& \vdots & \ddots &\vdots \\ c_{n1}& c_{n2} & \cdots &c_{nn} \\ \end{bmatrix}
C=(cij)n×n=⎣⎢⎢⎢⎡c11c21⋮cn1c12c22⋮cn2⋯⋯⋱⋯c1nc2n⋮cnn⎦⎥⎥⎥⎤
向量化之后的表达式为:
C
=
(
x
−
E
(
x
)
)
(
x
−
E
(
x
)
)
T
C=(x-E(x))(x-E(x))^T
C=(x−E(x))(x−E(x))T
(说明这里的E(x)是对x按列求均值的结果,如果使用python,可以写成
np.mean(x,axis=1)
)
3.相关系数
意义:由于随机变量的取值范围不同,两个协方差不具备可比性。如X,Y,Z分别是三个随机变量,
想要比较X与Y的线性相关程度强,还是X与Z的线性相关程度强,通过cov(X,Y)与cov(X,Z)
无法直接比较。定义相关系数:
ρ
=
c
o
v
(
X
,
Y
)
V
a
r
(
x
)
V
a
r
(
y
)
\rho = \frac{cov(X,Y)}{\sqrt{Var(x)Var(y)}}
ρ=Var(x)Var(y)cov(X,Y)
4.相关系数矩阵
设n维随机变量
X = [ X 1 X 2 ⋮ X n ] X= \begin{bmatrix} X_{1} \\ X_{2} \\ \vdots \\ X_{n} \\ \end{bmatrix} X=⎣⎢⎢⎢⎡X1X2⋮Xn⎦⎥⎥⎥⎤
取样本矩阵
x
=
[
x
11
x
12
⋯
x
1
m
x
21
x
22
⋯
x
2
m
⋮
⋮
⋱
⋮
x
n
1
x
n
2
⋯
x
n
m
]
x= \begin{bmatrix} x_{11}& x_{12} & \cdots &x_{1m} \\ x_{21}& x_{22} & \cdots &x_{2m} \\ \vdots& \vdots & \ddots &\vdots \\ x_{n1}& x_{n2} & \cdots &x_{nm} \\ \end{bmatrix}
x=⎣⎢⎢⎢⎡x11x21⋮xn1x12x22⋮xn2⋯⋯⋱⋯x1mx2m⋮xnm⎦⎥⎥⎥⎤
那么其中两个维度的相关系数为:
ρ
(
X
i
,
X
j
)
=
C
o
v
(
X
i
,
X
j
)
V
a
r
(
X
i
)
V
a
r
(
X
j
)
\rho(X_i,X_j)=\frac{Cov(X_i,X_j)}{\sqrt{Var(X_i)Var(X_j)}}
ρ(Xi,Xj)=Var(Xi)Var(Xj)Cov(Xi,Xj)
(其中
X
i
,
X
j
X_i, X_j
Xi,Xj分别代表所有样本的第 i 和第 j 维的元素构成向量。)
设
ρ
i
j
=
ρ
(
X
i
,
X
j
)
\rho_{ij}=\rho(X_i,X_j)
ρij=ρ(Xi,Xj),那么有
ρ = ( ρ i j ) m × m = [ ρ 11 ρ 12 ⋯ ρ 1 n ρ 21 ρ 22 ⋯ ρ 2 n ⋮ ⋮ ⋱ ⋮ ρ n 1 ρ n 2 ⋯ ρ n n ] \rho=(\rho_{ij})_{m \times m}= \begin{bmatrix} \rho_{11}& \rho_{12} & \cdots &\rho_{1n} \\ \rho_{21}& \rho_{22} & \cdots &\rho_{2n} \\ \vdots& \vdots & \ddots &\vdots \\ \rho_{n1}& \rho_{n2} & \cdots &\rho_{nn} \\ \end{bmatrix} ρ=(ρij)m×m=⎣⎢⎢⎢⎡ρ11ρ21⋮ρn1ρ12ρ22⋮ρn2⋯⋯⋱⋯ρ1nρ2n⋮ρnn⎦⎥⎥⎥⎤