什么是协方差?
首先,这几个数理统计中的概念因该很熟悉了:
- 均值: X ˉ = ∑ i = 1 n X i n \bar{X} = \frac{\sum_{i=1}^{n}X_{i}}{n} Xˉ=n∑i=1nXi
- 标准差: s = ∑ i = 1 n ( X i − X ˉ ) 2 n s = \sqrt{\frac{\sum_{i=1}^{n}(X_{i}-\bar{X})^2} {n}} s=n∑i=1n(Xi−Xˉ)2
- 方差: s 2 = ∑ i = 1 n ( X i − X ˉ ) 2 n s^2 = \frac{\sum_{i=1}^{n}(X_{i}-\bar{X})^2} {n} s2=n∑i=1n(Xi−Xˉ)2
那为什么 还要用协方差呢?那是因为标准差和方差一般是用来描述一维数据的,但是有时候我们遇到的是多维数据,当然,多维数据可以拆开成一维数据那样去统计,但是有时候我需要看不同维度之间数据之间的关系,那么这个时候就要用协方差,即协方差就是一种用来度量两个随机变量关系的统计量。
c o v ( X , Y ) = ∑ i = 1 n ( X i − X ˉ ) ( Y i − Y ˉ ) n − 1 cov(X,Y)=\frac{\sum_{i=1}^{n}(X_{i}-\bar{X})(Y_{i}-\bar{Y})}{n-1} cov(X,Y)=n−1∑i=1n(Xi−Xˉ)(Yi−Yˉ)
那么:
c
o
v
(
X
,
X
)
=
v
a
r
(
X
)
cov(X,X)=var(X)
cov(X,X)=var(X)(
X
X
X的方差)
c
o
v
(
X
,
Y
)
=
c
o
v
(
Y
,
X
)
cov(X,Y)=cov(Y,X)
cov(X,Y)=cov(Y,X)
那么多维数据之间的关系呢?
用协方差矩阵
C n × n = ( c i , j , c i , j = c o v ( D i m i , D i m j ) ) C_{n \times n} = (c_{i,j},c_{i,j}=cov(Dim_{i},Dim_{j})) Cn×n=(ci,j,ci,j=cov(Dimi,Dimj))
例如三维矩阵
C = ( c o v ( x , x ) c o v ( x , y ) c o v ( x , z ) c o v ( y , x ) c o v ( y , y ) c o v ( y , z ) c o v ( z , x ) c o v ( z , y ) c o v ( z , z ) ) C=\begin{pmatrix} cov(x,x)&cov(x,y) &cov(x,z) \\ cov(y,x)&cov(y,y) &cov(y,z) \\ cov(z,x)&cov(z,y) &cov(z,z) \end{pmatrix} C=⎝⎛cov(x,x)cov(y,x)cov(z,x)cov(x,y)cov(y,y)cov(z,y)cov(x,z)cov(y,z)cov(z,z)⎠⎞
对角线是各个维度上的方差。