教科书上的LDA为什么长这样？

最新推荐文章于 2024-06-27 10:37:12 发布

PaperWeekly

最新推荐文章于 2024-06-27 10:37:12 发布

阅读量716

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/82230031

版权

线性判别分析（LDA）的经典形式使用类间散布矩阵，而非均值之差。本文探讨了为何采用类间散布，以及LDA为何限制为投影到直线，而非超平面。通过拉格朗日乘子法，证明了LDA只能向一维投影。此外，还讨论了比值与差值在目标函数中的选择，揭示了比值的直觉解释和不变性。最后，总结了LDA在直觉、简洁性和有效性方面的经典理由。

摘要由CSDN通过智能技术生成

640

作者丨DeAlVe

学校丨某211硕士生

研究方向丨模式识别与机器学习

线性判别分析（Linear Discriminant Analysis, LDA）是一种有监督降维方法，有关机器学习的书上一定少不了对 PCA 和 LDA 这两个算法的介绍。LDA 的标准建模形式是这样的（这里以两类版本为例，文章会在几个关键点上讨论多类情况）：

640

其中， 640 是类间散布矩阵， 640 是类内散布矩阵， w 是投影直线：

640

怎么样，一定非常熟悉吧，经典的 LDA 就是长这个样子的。这个式子的目标也十分直观：将两类样本投影到一条直线上，使得投影后的类间散布矩阵与类内散布矩阵的比值最大。

三个加粗的词隐含着三个问题：

1. 为什么是类间散布矩阵呢？直接均值之差 m1-m2 不是更符合直觉吗？这样求出来的解和原来一样吗？

2. 为什么是投影到直线，而不是投影到超平面？PCA 是把 d 维样本投影到 c 维 (c<d)，LDA 为什么不能也投影到 c 维，而是直接投影到 1 维呢？同样地，在 K 类 LDA 中，为什么书上写的都是投影到 K-1 维，再高一点不行吗？这是必然吗？

3. 为什么是类间散布与类内散布的比值呢？差值不行吗？

这篇文章就围绕这三个问题展开。我们先回顾一下经典 LDA 的求解，然后顺次讲解分析这三个问题。

回顾经典LDA

原问题等价于这个形式：

640

然后就可以用拉格朗日乘子法了：

640

求导并令其为 0：

640

得到解：

640

对矩阵 640 进行特征值分解就可以得到 w。但是有更简单的解法：

640

而其中 640 是一个标量，所以 640 和 λw 共线，得到：

640

求解完毕。非常优雅，不愧是教科书级别的经典算法，整个求解一气呵成，标准的拉格朗日乘子法。但是求解中还是用到了一个小技巧： 640 是标量，从而可以免去特征值分解的麻烦。

那么，我们能不能再贪心一点，找到一种连这个小技巧都不需要的求解方法呢？答案是可以，上面的问题在下一节中就能得到解决。

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。