机器学习入门-吃瓜第三章--线性判别分析-CSDN博客

本文链接：https://blog.csdn.net/pzb2000/article/details/140024103

3.4 线性判别分析

一般使用流程

线性判别分析的一般使用流程如下：首先在训练集上学得模型，由向量内积的几何意义可知，y 可以看作是x在w上的投影，因此在训练集上学得的模型能够保证训练集中的同类样本在w上的投影y很相近，而异类样本在w上的投影y很疏远。然后对于新的测试样本 $x_{i}$ ，将其代入模型得到它在w上的投影 $y_{i}$ ，然后判别这个投影 $y_{i}$ 与哪一类投影更近，则将其判为该类。

注意：线性判别分析是一种监督降维方法，即降维过程中需要用到样本类别标记信息。

算法原理

线性判别分析（Linear Discriminant Analysis，简称LDA）是一种经典的线性学习方法，也叫“Fisher判别分析”。
LDA的思想：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近

、异类样例的投影点尽可能远离；在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别。

LDA的二维示意图。“+”、“-”分别代表正例和反例，椭圆表示数据簇的外轮廓，虚线表示投影，红色实心圆和实心三角形分别表示两类样本投影后的中心点。

针对同类样例的投影点尽可能接近，可以让同类样例的协方差尽可能小，即 $w^{T}\sum _{0}w+w^{T}\sum _{1}w$ 尽可能小；
针对异类样例的投影点尽可能远，可以让类中心之间的距离尽可能大，即 $\left \| w^{T} u_{0}-w^{T} u_{1}\right \|_{2}^{2}$ 尽可能大。