线性判别分析LDA详解(分类|降维算法)

今天小A来为大家详细的介绍线性判别分析LDA(Linear Discriminant Analysis)的算法原理,内容会含有很多数学公式,小A会一步一步详细的介绍。希望大家不要看到公式就害怕,耐心的看下去,其实并没有想象中的难哦。

首先介绍一下LDA的算法思想,它的思想非常朴素:就是设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能的远。那么我们在对新样本分类时,也可以将该样本投影到这条直线上,再根据投影点的位置来确定新样本的类别。比如下图所示:

图片

我们可以看到,右图明显比左图具有更好的投影效果,红类和蓝类没有交集,并且各自都很紧凑。而LDA要做的就是找到这样一条能够最佳投影的直线,来进行新数据分类也可以降维。

给定数据集D={xi,yi}。为了方便说明,我们假设样例xi是二维数据,即样例具有两类特征。yi是分类结果属于{0,1}。我们要做的就是找一条能对样本数据最佳分类的方向为w的直线。在投影之前,各类样本的均值是:

图片

投影之后,各类样本的均值变成:

图片

我们可以看到,投影后的均值点就是样本中心的投影。那么两个类别中心点之间的距离就是

图片

我们要做的就是让类中心之间的距离尽可能大,但同时也要保证同类样例的投影点尽可能接近,也就是尽可能的紧凑,不要太散。所以,我们还需要找一个方法去度量同类样例的离散程度。

我们知道,标准差和方差一般用来描述一维数据的散布度。方差公式的定义如下所示:

图片

所以我们定义一个度量值s~:

图片

注意,这个公式是描述投影后的度量值,z是样本点映射在直线上的点,yi表示类别。对比方差公式,我们可以看到s~只是没有除以(n-1),所以我们也可以很直观的看到s~的几何意义就是描述样本点的密集程度,s~的值越大,样本越分散,值越小,样本越集中。所以根据LDA的中心思想:使得同类样例的投影点尽可能接近,异类样例的投影点尽可能的远。我们可以给出J(w)公式:

图片

我们的目标就是使分母(异类样本距离)尽可能大,分子(同类样本距离)尽可能小。所以,我们的目标就是使J(w)尽可能大,所以我们只需找出使J(w)最大的w即可。

拆解度量值s~:

图片

其中:

图片

该矩阵称作散度矩阵,所以s~又可以定义为

图片

在这里我们定义类内散度矩阵Sw:

图片

所以Sw=S0+S1,所以J(w)的分母可以写成w^T*Sw*w。我们再来看分子,分子可以拆解成:

图片

我们定义类间散度矩阵:

图片

所以J(w)可以重写为:

图片

那么接下来如何确定w呢,我们注意到J(w)的分子和分母都是关于w的二次项,那就意味着,如果w是一个解,则对任意常熟a,a*w也是解,所以J(w)的解与w的长度无关,只与其方向有关,所以我们对分母进行归一化,令J(w)的分母为1。对于这种有限制条件的最值求解,我们使用拉格朗日法求解:

图片

对其进行求导:

图片

如果矩阵Sw可逆的话,那么:

图片

我们知道:

图片

所以

图片

那么公式带入可以转化为:

图片

 由于对w扩大缩小任何倍不影响结果,所以我们把上述两处化简掉,约去可得:

图片

到这里我们只需要求出原始样本的均值和方差就可以求出最佳的方向w,进而求出最佳分类投影直线y=w^T。

今天为大家详细的讲解了线性判别分析LDA的中心思想和算法实现原理及公式推导,请问你学会了吗

下一篇将会为大家介绍多分类线性判别分析LDA,敬请期待哦!感兴趣点个关注吧~

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值