线性模型（二）Fisher线性判别分析

最新推荐文章于 2025-02-25 22:59:45 发布

doubleslow;

最新推荐文章于 2025-02-25 22:59:45 发布

阅读量7.3k

点赞数 26

分类专栏：机器学习线性学习文章标签： LDA线性判别分析二分类模式识别有监督降维广义瑞利商

本文链接：https://blog.csdn.net/qq_36607894/article/details/90112757

版权

线性判别分析，Linear Discriminant Analysis，一种用于二分类的很经典的线性学习方法，1936年由Fisher 提出，so也称为Fisher判别分析。它和PCA一样，也是一种降维方法。
英国大统计学家Fisher,“a genius who almost single-handedly created the foundations for modern statistical science”，“the single most important figure in 20th century statistics”.

LDA方法属于模式识别领域。
模式识别系统的基本构成：数据采集和预处理，特征选取，分类器设计，训练测试，计算分类结果，复杂度分析。
其中，选取特征是个技术活，如果特征过多，某些特征实际和分类结果相关性很小，就会造成过拟合，模型无法适用于新数据。不必要的特征甚至可能带来不可预知的影响。除此以外，过多的特征运算量也太大。因此，降维很必要。

（1）思想

训练阶段：通过投影进行降维，把所有带标签的训练数据点投影到一个直线（or低维超平面），使得两类数据点投影后的位置满足，类内离差最小，类间离差最大，即同类样本的投影点尽可能接近，异类样本的投影点尽可能远离。

贴一张周志华西瓜书的图：
在这里插入图片描述
数据点都是二维的（2个特征），沿着虚线方向投影到那条直线，达到分离目的。所以，LDA的关键就是找这个投影方向。分界线的方程为 $y={\boldsymbol w}^T{\boldsymbol x}$ ,投影方向与之正交，那自然就是 $\boldsymbol w$ 的方向了。

测试阶段：把新数据点也投影到同一个低维超平面，根据投影点的位置判断类别。

（2）原理和推导

（不明白时结合上面的图去看）

（一）类内散布矩阵和类间散布矩阵

假设样本分两类，第0类和第1类，对应两个子集 $X_0,X_1$ ，样本点总数分别是 $N_0,N_1$

投影到的直线/低维超平面的方程是 $y=\boldsymbol w^T\boldsymbol x$

从核心思想的两个角度分别出发，建立部分的数学模型：

类间距离尽可能大：

$\boldsymbol{\mu_0},\boldsymbol{\mu_1}$ 分别是两类样本的中心：

$\boldsymbol{\mu_0}=\frac{1}{N_0}\sum_{\boldsymbol x\in X_0 }\boldsymbol x$

$\boldsymbol{\mu_1}=\frac{1}{N_1}\sum_{\boldsymbol x\in X_1 }\boldsymbol x$

两个中心到直线上的投影分别为 $\boldsymbol w^T\boldsymbol{\mu_0}和\boldsymbol w^T\boldsymbol{\mu_1}$ 。

为了使类间距离最大，则应最大化这两个投影点之间的距离：
$||\boldsymbol w^T\boldsymbol{\mu_0}-\boldsymbol w^T\boldsymbol{\mu_1}||_2^2$
即
$||\boldsymbol w^T(\boldsymbol{\mu_0}-\boldsymbol{\mu_1})||_2^2=$

$\boldsymbol w^T(\boldsymbol{\mu_0}-\boldsymbol{\mu_1})[\boldsymbol w^T(\boldsymbol{\mu_0}-\boldsymbol{\mu_1})]^T=$

$\boldsymbol w^T(\boldsymbol{\mu_0}-\boldsymbol{\mu_1})(\boldsymbol{\mu_0}-\boldsymbol{\mu_1})^T\boldsymbol w=$

$\boldsymbol w^TS_b\boldsymbol w$

其中 $S_b$ 为类间散布矩阵：

$S_b=(\boldsymbol{\mu_0}-\boldsymbol{\mu_1})(\boldsymbol{\mu_0}-\boldsymbol{\mu_1})^T$
S代表scatter（散布矩阵scatter matrix），b下标代表between， $S_b$ 表示between class scatter。