LDA(Linear Discriminant Analysis)的原理详解

最新推荐文章于 2025-04-15 08:45:00 发布

迷雾总会解

最新推荐文章于 2025-04-15 08:45:00 发布

阅读量2.1w

点赞数 32

分类专栏：数据挖掘文章标签：机器学习算法深度学习 LDA

本文链接：https://blog.csdn.net/qq_44766883/article/details/109893062

版权

数据挖掘专栏收录该内容

19 篇文章

订阅专栏

什么是LDA

LDA是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括，就是“投影后类内方差最小，类间方差最大”。什么意思呢？我们要将数据在低维度上进行投影，投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大。

我们来看一个例子，假设我们有两类数据分别为红色和蓝色，如下图所示，这些数据特征是二维的，我们希望将这些数据投影到一维的一条直线，让每一种类别数据的投影点尽可能的接近，而红色和蓝色数据中心之间的距离尽可能的大。

在这里插入图片描述

上图提供了两种投影方式，哪一种能更好的满足我们的标准呢？从直观上可以看出，右图要比左图的投影效果好，因为右图的红色数据和蓝色数据各个较为集中，且类别之间的距离明显。左图则在边界处数据混杂。以上就是LDA的主要思想了，当然在实际应用中，我们的数据是多个类别的，我们的原始数据一般也是超过二维的，投影后的也一般不是直线，而是一个低维的超平面。

再看一个例子

左边的投影效果显然不如右边图的投影效果。假如我们知道了两类数据的中心点 $u_1$ 和 $u_2$ ，以及两类数据的离散度 $S_1$ 以及 $S_2$ ，那我们现在要做的就是使 $\frac{|u_1 - u_2|^2}{S_1^2 + S_2^2}$ 尽量大。即最大化两类数据的距离，最小化两类数据各自的离散度。

那我们应该如何进行计算呢？？？

在我们将上面直观的内容转化为可以度量的问题之前，我们先了解些必要的数学基础知识，这些在后面讲解具体LDA原理时会用到。

瑞利商（Rayleigh quotient）与广义瑞利商（genralized Rayleigh quotient）

我们首先来看看瑞利商的定义。瑞利商是指这样的函数R(A,x):

$\frac{x^HAx}{x^Hx}$
其中x为非零向量，而A为n×n的Hermitan矩阵。所谓的Hermitan矩阵就是满足共轭转置矩阵和自己相等的矩阵，即AH=A。如果我们的矩阵A是实矩阵，则满足AT=A的矩阵即为Hermitan矩阵。

瑞利商R(A,x)有一个非常重要的性质，即它的最大值等于矩阵A最大的特征值，而最小值等于矩阵A的最小的特征值，也就是满足

$λ_{min}≤\frac{x^HAH}{x^Hx}≤λ_{max}$

具体的证明这里就不给出了，感兴趣的可以看瑞利定理的定理证明

当向量x是标准正交基时，即满足xHx=1时，瑞利商退化为：R(A,x)=xHAx，这个形式在谱聚类和PCA中都有出现。

以上就是瑞利商的内容，现在我们再看看广义瑞利商。广义瑞利商是指这样的函数R(A,B,x):
$\frac{x^HAH}{x^HBx}$

其中x为非零向量，而A,B为n×n的Hermitan矩阵。B为正定矩阵。它的最大值和最小值是什么呢？其实我们只要通过将其通过标准化就可以转化为瑞利商的格式。我们令x=B−1/2x′,则分母转化为：
$x^HBx = x'^H(B^{-\frac{1}{2}})^HBB^{-\frac{1}{2}}x' = x'^HB^{-\frac{1}{2}}BB^{-\frac{1}{2}}x = x'^Hx'$
而分子转化为：

$x^HAx = x'^HB^{-\frac{1}{2}}AB^{-\frac{1}{2}}x'$

此时我们的R(A,B,x)转化为R(A,B,x′):

$\frac{ x'^HB^{-\frac{1}{2}}AB^{-\frac{1}{2}}x'}{x'^Hx'}$

利用前面的瑞利商的性质，我们可以很快的知道，R(A,B,x′)的最大值为矩阵 $B^{-\frac{1}{2}}AB^{-\frac{1}{2}}$ 的最大特征值，或者说矩阵 $B^{-1}A$ 的最大特征值，而最小值为矩阵 $B^{-1}A$ 的最小特征值。

二类LDA原理

现在我们回到LDA的原理上，我们在第一节说讲到了LDA希望投影后希望同一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大，但是这只是一个感官的度量。现在我们首先从比较简单的二类LDA入手，严谨的分析LDA的原理。

假设我们的数据集 $D={(x_1,y_1),(x_2,y_2),...,((x_m,y_m))}$ ,其中任意样本xi为n维向量， $y_i$ ∈{0,1}。我们定义 $N_j$ (j=0,1)为第j类样本的个数， $X_j$ (j=0,1)为第j类样本的集合，而 $μ_j$ (j=0,1)为第j类样本的均值向量，定义 $Σ_j$ (j=0,1)为第j类样本的协方差矩阵（严格说是缺少分母部分的协方差矩阵）。

$μ_j$ 的表达式为：
$u_j = \frac{1}{N_j}\sum_{x∈X_j}x \ \ (j = 0,1)$

$\sum_j$ 的表达式为：

$\sum_j = \sum_{x∈X_j}(x - u_j)(x - u_j)^T (j = 0,1)$

由于是两类数据，因此我们只需要将数据投影到一条直线上即可。假设我们的投影直线是向量w,则对任意一个样本本 $x_i$ ,它在直线w的投影为 $w^Tx_i$ ,对于我们的两个类别的中心点 $μ_0$ , $μ_1$ ,在在直线w的投影为 $w^Tμ_0$ 和 $w^Tμ_1$ 。由于LDA需要让不同类别的数据的类别中心之间的距离尽可能的大，也就是我们要最大化 $w^Tμ_0−w^Tμ_1||^2_2$ ,同时我们希望同一种类别数据的投影点尽可能的接近，也就是要同类样本投影点的协方差 $w^T\sum_0w和w^T\sum_1w$ 尽可能的小，即最小化 $w^T\sum_0w和w^T\sum_1w$ 。综上所述，我们的优化目标为：

$\frac{||w^Tu_0 - w^Tu_1||_2^2}{w^T\sum_0w + w^T\sum_1w} = \frac{w^T(u_0 - u_1)(u_0-u_1)^Tw}{w^T(\sum_0 + \sum_1)w}$

我们一般定义类内散度矩阵 $S_w$ 为：

$S_w = \sum_0 + \sum_1 = \sum_{x∈X_0}(x-u_0)(x-u_0)^T + \sum_{x∈X_1}(x-u_1)(x-u_1)^T$

同时定义类间散度矩阵 $S_b$ 为：

$S_b = (u_0 - u_1)(u_0 -u_1)^T$

这样我们的优化目标重写为：

$\ max J(w) = \frac{w^TS_bw}{w^TS_ww}$

仔细一看上式，这不就是我们的广义瑞利商嘛！这就简单了，利用我们第二节讲到的广义瑞利商的性质，我们知道我们的J(w′)最大值为矩阵 $S_w^{-\frac{1}{2}}S_bS_w^{-\frac{1}{2}}$ 的最大特征值，而对应的w′为 $S_w^{-\frac{1}{2}}S_bS_w^{-\frac{1}{2}}$ 的最大特征值对应的特征向量! 而 $S^{−1}_wS_b$ 的特征值和 $S_w^{-\frac{1}{2}}S_bS_w^{-\frac{1}{2}}$ 的特征值相同, $S^{−1}_wS_b$ 的特征向量w和 $S_w^{-\frac{1}{2}}S_bS_w^{-\frac{1}{2}}$ 的特征向量w′满足 $w=S^{−\frac{1}{2}}_ww′$ 的关系!

注意到对于二类的时候， $S_bw$ 的方向恒平行于 $μ_0−μ_1$ ,不妨令 $S_bw=λ(μ0−μ1)$ ，将其带入 $(S^{−1}_wS_b)w=λw$ ，可以得到 $w=S^{−1}_w(μ_0−μ_1)$ ，也就是说我们只要求出原始二类样本的均值和方差就可以确定最佳的投影方向w了。

一定要自己推一下，才好理解！！！都是一些线代基础知识。

算法的流程

输入：数据集 $D=\{(x_1,y_1),(x_2,y_2),...,((x_m,y_m))\}$ ,其中任意样本xi为n维向量， $y_i∈\{C_1,C_2,...,C_k\}$ ，降维到的维度d。

输出：降维后的样本集 $D'$

计算类内散度矩阵 $S_w$
计算类间散度矩阵 $S_b$
计算矩阵 $S^{−1}_wS_b$
计算 $S^{−1}_wS_b$ 的最大的d个特征值和对应的d个特征向量(w1,w2,…wd),得到投影矩阵WW
对样本集中的每一个样本特征 $x_i$ ,转化为新的样本 $z_i=W^Tx_i$
得到输出样本集 $D′={(z_1,y_1),(z_2,y_2),...,((z_m,y_m))}$

以上就是使用LDA进行降维的算法流程。实际上LDA除了可以用于降维以外，还可以用于分类。一个常见的LDA分类基本思想是假设各个类别的样本数据符合高斯分布，这样利用LDA进行投影后，可以利用极大似然估计计算各个类别投影数据的均值和方差，进而得到该类别高斯分布的概率密度函数。当一个新的样本到来后，我们可以将它投影，然后将投影后的样本特征分别带入各个类别的高斯分布概率密度函数，计算它属于这个类别的概率，最大的概率对应的类别即为预测类别。

二类LDA例子(与PCA进行对比)

现在有两个数据集：
$C_1 = [(1,2);(2,3);(3,3);(4,5);{(5,5)}] \\ \ \ \ \ \ \ \ \ \ \ C_2 = [(1,0);(2,1);(3,1);(3,2);(5,3);(6,5)]$

PCA降维

$C_1;C_2]$ 的协方差：
$\left\{ \begin{matrix} 2.7636 \ \ \ 2.2545 \\ 2.2545 \ \ \ 3.0182 \end{matrix} \right\}$

Z的特征向量和特征值

$\left\{ \begin{matrix} -0.7268 & 0.6869 \\ 0.6869 & 0.7268 \end{matrix}\right\}$

$\left\{ \begin{matrix} 0.6328 & 0\\ 0 & 5.1490\end{matrix} \right\}$

看出我们有两个特征值，0.632< 5.1490，选取5.1490所对应的特征向量为投影方向，即：
$0.6869,0.7268]^T$

LDA降维

每一类数据的均值：
$u_1 = mean(C_1) = [3.0,3.6]^T$

$u_2 = mean(C_2) = [3.3,2.0]^T$

进而算出 $S_B$ ：
$S_b = (u_1-u_2)(u_1-u_2)^T = \left\{ \begin{matrix} 0.11 & -0.53 \\ -0.53 & 2.56\end{matrix}\right\}$

每一类数据的离散度：
$S_1 = 4 × cov(C_1) = \left\{ \begin{matrix} 10 & 8 \\8 & 7.2 \end{matrix}\right\}$

$S_2 = 5 × cov(C_2) = \left\{ \begin{matrix} 17.3 & 16 \\16 & 16 \end{matrix}\right\}$

进而算出 $S_w$ ：

$S_w = S_1 + S_2 = \left\{ \begin{matrix} 27.3 & 24 \\ 24 & 23.2 \end{matrix}\right\}$

方法一：

计算 $S_w^{-1}S_b$

$S_w^{-1}S_b = \left\{ \begin{matrix} 0.26 & -1.27 \\-0.30 & 1.42\end{matrix}\right\}$

$S_w^{-1}S_b$ 的特征值和特征向量
$\left\{ \begin{matrix} -0.98 & 0.67 \\ -0.20 & -0.75 \end{matrix}\right\}$

$\left\{ \begin{matrix} 0 & 0 \\ 0 & 1.69 \end{matrix}\right\}$

看出我们有两个特征值，0<1.69，选取1.69所对应的特征向量为投影方向，即：

$0.6656,-0.7463]^T$

方法二：

计算 $S_w^{-1}(u_1-u_2)^T$ ：

$S_w^{-1}(u_1-u_2)^T = [-0.7936, 0.8899]^T$

进行标准化：
$0.6656,-0.7463]^T$

PCA和LDA图像比较

不难看出PCA依然是那个PCA，在处理多类数据的降维问题上，效果比LDA差不少！

多类LDA原理

有了二类LDA的基础，我们再来看看多类别LDA的原理。
　假设我们的数据集 $D={(x_1,y_1),(x_2,y_2),...,((x_m,y_m))}$ ,其中任意样本xi为n维向量， $y_i∈{C_1,C_2,...,C_k}$ 。我们定义 $N_j(j=1,2...k)$ 为第j类样本的个数， $X_j(j=1,2...k)$ 为第j类样本的集合，而 $μ_j(j=1,2...k)$ 为第j类样本的均值向量，定义 $Σ_j(j=1,2...k)$ 为第j类样本的协方差矩阵。在二类LDA里面定义的公式可以很容易的类推到多类LDA。
　　由于我们是多类向低维投影，则此时投影到的低维空间就不是一条直线，而是一个超平面了。假设我们投影到的低维空间的维度为d，对应的基向量为 $w_1,w_2,...w_d)$ ，基向量组成的矩阵为W, 它是一个n×d的矩阵。
此时我们的优化目标应该可以变成为:

$\frac{W^TS_bW}{W^TS_wW}$

其中 $S_b = \sum^k_{j=1}N_j(u_j - u)(u_j-u)^T$ ，u为所有样本均值向量； $S_w = \sum^k_{j=1} S_{wj} = \sum^k_{j=1}\sum_{x∈X_j}(x-u_j)(x-u_j)^T$

在这里插入图片描述

但是有一个问题，就是 $W^TS_bW$ 和 $W^TS_wW$ 都是矩阵，不是标量，无法作为一个标量函数来优化！也就是说，我们无法直接用二类LDA的优化方法，怎么办呢？一般来说，我们可以用其他的一些替代优化目标来实现。

常见的一个LDA多类优化目标函数定义为：
$\ max \ \ J(w) = \frac{\prod_{diag}W^TS_bW}{\prod_{diag}W^TS_wW}$

其中 $\prod_{diag}A$ 为A的主对角线元素的乘积，W为n×d的矩阵。

J(W)的优化过程可以转化为：

$\ \ J(w) = \frac{\prod_{i=1}^{d}W_i^TS_bw_i}{\prod_{i=1}^{d}W_i^TS_ww_i} = \prod_{i=1}^{d} \frac{W_i^TS_bw_i}{W_i^TS_ww_i}$

仔细观察上式最右边，这不就是广义瑞利商嘛！最大值是矩阵 $S^{−1}wS_b$ 的最大特征值,最大的d个值的乘积就是矩阵 $S^{−1}wS_b$ 的最大的d个特征值的乘积,此时对应的矩阵W为这最大的d个特征值对应的特征向量张成的矩阵。

由于W是一个利用了样本的类别得到的投影矩阵，因此它的降维到的维度d最大值为k-1。为什么最大维度不是类别数k呢？因为 $S_b$ 中每个 $μ_j−μ$ 的秩为1，因此协方差矩阵相加后最大的秩为k(矩阵的秩小于等于各个相加矩阵的秩的和)，但是由于如果我们知道前k-1个 $μ_j$ 后，最后一个 $μ_k$ 可以由前k-1个 $μ_j$ 线性表示，因此 $S_b$ 的秩最大为k-1，即特征向量最多有k-1个。