LDA与PCA的一些区别总结

最新推荐文章于 2023-06-24 15:29:44 发布

差点儿90后

最新推荐文章于 2023-06-24 15:29:44 发布

阅读量7.6k

点赞数 4

分类专栏：机器学习

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

LDA，基本和PCA是一对双生子，它们之间的区别就是PCA是一种unsupervised的映射方法而LDA是一种supervised映射方法，这一点可以从下图中一个2D的例子简单看出

图的左边是PCA，它所作的只是将整组数据整体映射到最方便表示这组数据的坐标轴上，映射时没有利用任何数据内部的分类信息。因此，虽然做了PCA后，整组数据在表示上更加方便(降低了维数并将信息损失降到最低)，但在分类上也许会变得更加困难；图的右边是LDA，可以明显看出，在增加了分类信息之后，两组输入映射到了另外一个坐标轴上，有了这样一个映射，两组数据之间的就变得更易区分了(在低维上就可以区分，减少了很大的运算量)。

在实际应用中，最常用的一种LDA方法叫作Fisher Linear Discriminant，其简要原理就是求取一个线性变换，是的样本数据中“between classes scatter matrix”(不同类数据间的协方差矩阵)和“within classes scatter matrix”(同一类数据内部的各个数据间协方差矩阵)之比的达到最大。

两者都是为了在对原始数据降维之后进行分类。PCA是无监督的方式，它没有分类标签，降维之后需要采用K-Means或自组织映射网络等无监督的算法进行分类。LDA是有监督的方式，它先对训练数据进行降维，然后找出一个线性判别函数。

在这里，引申一点内容：搞清楚什么叫判别分析？Discriminant Analysis就是根据研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。

根据判别标准不同，可以分为距离判别、Fisher判别、Bayes判别法等。比如在KNN中用的就是距离判别，当然这里的“距离”又有好几种：欧氏距离、街区距离、甚至可以用皮尔森相关系数等。朴素贝叶斯分类用的就是Bayes判别法。本文要讲的线性判别分析就是用是Fisher判别式。

根据判别函数的形式，可以分为线性判别和非线性判别。