协方差矩阵与散度矩阵的意义

在机器学习模式识别中,经常需要应用到协方差矩阵C和散度矩阵S。如在PCA(Principal Component Analysis)主成分分析中,需要计算样本的散度矩阵,有的论文是计算协方差矩阵。实质上两者意义差不多,散度矩阵乘以1/(n-1)就可以得到协方差矩阵了。

在模式识别中,散度矩阵也称为散步矩阵,有的也称为类内离散度矩阵或者类内离差阵,用一个等式关系可表示为:

散度矩阵=类内离散度矩阵=类内离差阵=协方差矩阵 × (n-1)

样本的协方差矩阵乘以n-1倍等于散度矩阵,其中n表示样本个数,散度矩阵的大小由特征维数d决定,是一个d×d的半正定矩阵。

一、协方差矩阵基础

对于二维随机变量(X,Y)之间的相互关系的数字特征,我们用协方差来描述,记为Cov(X,Y):

C o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } = E ( X Y ) − E ( X ) E ( Y ) Cov(X,Y)=E\left \{ [X-E(X)][Y-E(Y)]\right \}=E(XY)-E(X)E(Y) Cov(X,Y)=E{[XE(X)][YE(Y)]}=E(XY)E(X)E(Y)

C o v ( X , Y ) = 1 n − 1 ∑ i = 1 n ( x − X ˉ ) ( y − Y ˉ ) Cov(X,Y)=\frac{1}{n-1}\sum _{i=1}^{n}(x-\bar{X})(y-\bar{Y}) Cov(X,Y)=n11i=1n(xXˉ)(yYˉ)

那么二维随机变量(X,Y)的协方差矩阵为:

C 2 × 2 = ( C 1 × 1 C 1 × 2 C 2 × 1 C 2 × 2 ) = ( C o v ( X , X ) C o v ( X , Y ) C o v ( Y , X ) C o v ( Y , Y ) ) C_{2\times 2}=\begin{pmatrix} C_{1\times 1} &C_{1\times 2} \\ C_{2\times 1} & C_{2\times 2} \end{pmatrix}=\begin{pmatrix} Cov(X,X) &Cov(X,Y) \\ Cov(Y,X)& Cov(Y,Y) \end{pmatrix} C2×2=(C1×1C2×1C1×2C2×2)=(Cov(X,X)Cov(Y,X)Cov(X,Y)Cov(Y,Y))

同理,对于三维随机变量(X,Y,Z)的协方差矩阵可表示为:

在这里插入图片描述

对于n维 X = ( X 1 , X 2 , . . . , X n ) X=(X_{1},X_{2},...,X_{n}) X=(X1,X2,...,Xn)协方差矩阵:

在这里插入图片描述

说明:

  1. 协方差矩阵是一个对称矩阵,且是半正定矩阵,主对角线是各个随机变量的方差(各个特征维度上的方差)
  2. 标准差和方差一般是用来描述一维数据的;对于多维情况,协方差是用于描述任意二维数据之间的关系(即两个特征之间的关系),一般用协方差矩阵来表示。因此协方差矩阵计算的是不同维度(不同特征)之间的协方差,而不是不同样本之间的。
  3. 协方差计算过程可简述为:先求各个分量的均值 E ( X i ) , E ( X j ) E(X_{i}),E(X_{j}) E(Xi),E(Xj),然后每个分量减去各自的均值得到两条向量,再进行内积运算,然后求内积后的总和,最后除以n-1.

在这里插入图片描述

二、协方差矩阵的意义

为了更好的理解协方差矩阵的几何意义,下面以二维正态分布图为例(假设样本服从二维正态分布):

在这里插入图片描述

协方差矩阵C的特征值D与特征向量V分别为:

在这里插入图片描述

说明:

  1. 均值[0,0]代表正态分布的中心点,方差代表其分布的形状。
  2. 协方差矩阵C的最大特征值D对应的特征向量V指向样本分布的主轴方向。例如,最大特征值 D 1 = 5 D_{1}=5 D1=5,其对应的特征向量 V 1 = [ 1 , 0 ] T V_{1}=[1,0]^{T} V1=[1,0]T即为样本分布的主轴方向(一般认为是数据的传播方向)。次大特征值 D 2 = 1 D_{2}=1 D2=1所对应的特征向量 V 2 = [ 0 , 1 ] T V_{2}=[0,1]^{T} V2=[0,1]T即为样本分布的短轴方向。

总之:

  1. 样本均值决定样本分布中心点的位置
  2. 协方差矩阵决定样本分布的扁圆程度
    • 是扁还是圆,由协方差矩阵的特征值决定:当特征值D1和D2的比值为1(D1/D2=1),则样本分布形状为圆形;当特征值的比值不为1时,样本分布为扁形。
    • 偏向方向(数据传播方向)由特征向量决定。最大特征值对应的特征向量,总是指向数据最大方差的方向(椭圆形的主轴方向)。次大特征向量总是正交于最大特征向量(椭圆形的短轴方向)。

三、协方差矩阵的应用

协方差矩阵(散布矩阵)在模式识别中应用广泛,最典型的应用是PCA主成分分析了,PCA主要用于降维,其意义就是将样本数据从高维空间投影到低维空间中,并尽可能的在低维空间中表示原始数据。这就需要找到一组最合适的投影方向,使得样本数据往低维投影后,能尽可能表征原始的数据。此时就需要样本的协方差矩阵。PCA算法就是求出这堆样本数据的协方差矩阵的特征值和特征向量,而协方差矩阵的特征向量的方向就是PCA需要投影的方向!

  • 4
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值