浅谈线性判别分析LDA

LDA浅显的核心是类内散度和类间散度矩阵,浅尝辄止的话,不可能明白最大化目标函数的意义。当你提出疑问:为什么是求协方差矩阵的行列式?为什么需要至少t+c个样本才能保证类内散度不是奇异的?奇异不奇异有什么关系呢?这时候就有必要进一步来领悟其中的道理。

为了解答这些疑问,我也是进一步去了解行列式的真正含义,单纯从理论上无法得知,然而结合行列式的几何意义,那一些都是那么的清晰直观。

A=\begin{bmatrix} a & c\\ b & d \end{bmatrix}

以矩阵A为例,将每一个列向量认为是多边形的一条边,则det(A)就是多边形的面积。如果b 和 c都是0,那么det(A)就是矩形的面积。在LDA中,类内散度其实就是各个类的协方差矩阵的和,它是对称阵。针对其中一类而言,假如说数据各个维度之间都不相关,那么除了主对角线的数据不为零外,其他都是0。也就是 b=0, c=0。对于协方差矩阵,b=c。暂且不考虑协方差的秩最多为c-1类,仅考虑所有不相关的维度(这里是指协方差矩阵的维度),他们围成的面积是最大的,就是矩形。如果维度间相关系数不为0,那么这个矩形就会被压缩,相当于捏着斜对角拉,导致矩阵被拉成平行四边形,由于边长不变,因而面积在减少,当继续拉,矩形将变成一条线,也就是降维了。这时候行列式=0。出现这种情况,说明了样本在某些维度上完全相关,也就是在某些维度上的方差为0,那么这类样本的协方差矩阵在多维空间中的超体积就是0。

矩阵有诸多用途,比如线性变换,将一个向量拉伸旋转升维降维等。此处的矩阵A并不是做变换用的,而是表述的样本点。每一列是一个样本。我们的任务是衡量每一维度的方差以及各个维度之间的协方差。方差越大,说明这个维度的数据分布越分散,如果画一个圆的话,则需要更大的圆来包围住所有的数据,方差是在协方差矩阵的主对角线上。单纯考虑方差的话,会造成维度冗余的问题。比如考虑以下几个样本:

A=\begin{matrix} 1 & 1& -1& -1\\ 1& -1 & 1& -1 \end{matrix}  和B=\begin{matrix} 1 & 1.2& -1.2& -1\\ 1& 1.2 & -1.2& -1 \end{matrix}

 

A的协方差矩阵是:cov(A)=\begin{matrix} 1 & 0\\ 0& 1 & \end{matrix}    

B的协方差矩阵是:cov(B)=\begin{matrix} 1 & 1.1\\ 1.1& 1.22 & \end{matrix}

也就是说,A样本的数据在两个维度上的方差都是1,而B数据在两个维度上的标准差分别是1和1.22。如果以最大标准差的维度去画圆将两个数据集包住,那么B需要更大的圆,然而很明显,这样做的话,B的圆内大部分位置是空的,也就是存在冗余。很明显,不能用各个维度方差的大小去衡量这个类样本所占的面积/体积。如果求其行列式,则

det(A)=1

det(B)=0.01

这个结果是比较令人满意的,因为从样本的分布可以看出,A在各个维度都很分散,B在45度这个方向很分散,但是在-45方向很集中,也就是说只用画一个很扁的椭圆就可以把B的样本全部圈起来。这说明了,B中的样本的相关性较高,也就是副对角线的值。尽管各个维度的数据很分散,但是两个维度之间的数据是相关的。这就有点像信息熵表达的意思,当信息很相关,也就是变化不多时,信息熵就很少。样本都一样时,信息熵为0,也就是行列式为0,样本矩阵的列秩为1。因此,使用样本散度矩阵的行列式来衡量其样本的分散程度是很科学的方法。实际上,行列式描述的就是向量围成的多边形的面积。上面用圆或椭圆圈起来样本只是我们手工分类的直觉性做法。

散度矩阵是不同类别的协方差矩阵相加,协方差的秩最大为n,n是样本维度,不同类的协方差加起来,秩最大是max(N-c,n),N是样本数,c是类别数。只有当N-c>=n时才能保证协方差矩阵满秩,所以样本数最少需要n+c个。至于为什么要加上样本数c,我也没明白,希望路过的大神指点指点。

 

 

 

 

 

 

 

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值