线性判别分析（LDA）学习笔记

最新推荐文章于 2024-07-12 15:12:07 发布

wolfrevoda

最新推荐文章于 2024-07-12 15:12:07 发布

阅读量1.8k

点赞数

分类专栏： machine-learning 文章标签：机器学习 LDA

本文链接：https://blog.csdn.net/batuwuhanpei/article/details/52026729

版权

machine-learning 专栏收录该内容

23 篇文章 1 订阅

订阅专栏

线性判别分析

线性判别分析又称为Fisher判别分析，因为其最早是由Fisher提出来处理二分类问题。线性判别分析的思想非常的简单，其就是要确定一条直线，当所有样本点投影到该条直线上的时候，能够保证同类样本的投影点尽可能集中，而不同类的样本的投影点则相聚较远。当有一个新样本来的时候，可以将该样本投影到这条直线上并归类到最近的类别中心所在类。
假设我们现在样本点归属于两个类A和B，这两类样本的均值向量分别为 $\mu_A$ 和 $\mu_B$ ，方差分别为 $\Sigma_A$ 和 $\Sigma_B$ ，又假设我们现在已经确定了一条直线 $y = \omega^Tx$ ，那么这两类样本到直线投影点的中心分别为 $\omega^T\mu_A$ 和 $\omega^T\mu_B$ ，两类样本的协方差分别为 $\omega^T\Sigma_A\omega$ 和 $\omega^T\Sigma_B\omega$ 。直线与样本的关系如下图所示：
这里写图片描述

我们可以看到我们希望所寻找的直线能够使得同类样本在直线上的投影尽可能的近，而不同类样本之间的距离尽可能的远。对于同类样本，我们利用协方差来衡量样本投影点之间的密集程度，而不同类样本，则是利用另个列别中心的距离来衡量。故我们可以得到想要最大化的目标是

J = ( ω T μ A - ω T μ b ) ( ω T μ A - ω T μ b ) T ω T Σ A ω + ω T Σ B ω = ω T ( μ A - μ B ) ( μ A - μ B ) T ω ω T ( Σ A + Σ B ) ω

$\begin{align} J &= \frac{(\omega^T\mu_A-\omega^T\mu_b)(\omega^T\mu_A-\omega^T\mu_b)^T}{\omega^T\Sigma_A\omega + \omega^T\Sigma_B\omega} \\ & = \frac{\omega^T(\mu_A-\mu_B)(\mu_A-\mu_B)^T\omega}{\omega^T(\Sigma_A+\Sigma_B)\omega} \end{align}$
令

Sb=(μA−μB)(μA−μB)T $S_b = (\mu_A-\mu_B)(\mu_A-\mu_B)^T$ ，

Sω=ΣA+ΣB $S_{\omega} = \Sigma_A+\Sigma_B$ ，其中

Sb $S_b$ 称为类间散度矩阵，

Sω $S_{\omega}$ 称为类内散度矩阵。这样我们的优化目标就可以转为

J = ω T S b ω ω T S ω ω

$J = \frac{\omega^TS_b\omega}{\omega^TS_\omega\omega}$ 又因为参数

ω $\omega$ 可以放大或缩小任意的倍数，因此一个最优

J $J$ 可能会对应无数个参数值，因此我们在这里对该优化目标做一个归一化，即令分母

ωTSωω=1 $\omega^TS_\omega\omega = 1$ ，这样我们的优化目标就又转化为了待条件的极值问题：

min s . t . - ω T S b ω ω T S ω ω = 1

$\begin{matrix} \min &-\omega^TS_b\omega \\ s.t. &\omega^TS_\omega\omega = 1 \end{matrix}$
这样我们就得到一个拉格朗日函数

F = - ω T S b ω + λ (ω T S ω ω - 1)

$F = -\omega^TS_b\omega + \lambda(\omega^TS_\omega\omega-1)$ 让该函数关于参数

ω $\omega$ 求导可得

δ F δ ω = - (S b ω + S T b ω) + λ (S ω ω + S T ω ω)

$\frac{\delta F}{\delta \omega} = -(S_b\omega+S_b^T\omega)+\lambda(S_\omega\omega+S_\omega^T\omega)$ 又因为

Sb=STb,Sω=STω $S_b = S_b^T,S_\omega = S_\omega^T$ ，并令导数为0有：

S b ω = λ S ω ω

$S_b\omega = \lambda S_\omega\omega$ 将

Sb $S_b$ 展开有：

(μ A - μ B) (μ A - μ B) T ω = λ S ω ω \Rightarrow (μ A - μ B) λ ω = λ S ω ω \Rightarrow ω = S - 1 ω (μ A - μ B)

$\begin{matrix} (\mu_A-\mu_B)(\mu_A-\mu_B)^T\omega = \lambda S_\omega\omega \Rightarrow \\ (\mu_A-\mu_B)\lambda_\omega= \lambda S_\omega\omega \Rightarrow \\ \omega = S_\omega^{-1}(\mu_A-\mu_B) \end{matrix}$
这里说明两点：

$(\mu_A-\mu_B)^T\omega$ 为一个常数；
因为 $\omega$ 可以任意的放大或缩小，因此我们可以直接将等号两边的 $\lambda$ 和 $\lambda_\omega$ 约掉，相当于将参数 $\omega$ 放大了 $\frac{\lambda_\omega}{\lambda}$ 倍

这样我们就可以得到最优的参数解，如果矩阵 $S_\omega$ 的逆，通常会利用奇异值分解（SVD）来求得。
对于多分类问题，我们也可以使用类似的思想来进行训练，类内散度矩阵不变，即我们依然要让各个类投影到直线上的点尽可能的聚集在一起，而类间散度矩阵则需要改变，因为此时是多个类的样本的投影，而原有的类间散度矩阵衡量的是两个类之间的距离。令 $\mu$ 为所有样本的样本均值，而 $\mu_i$ 则表示第 $i$ 类样本的样本均值，此时我们可以定义另一种类间散度矩阵