【ML】降维：LDA线性判别分析

最新推荐文章于 2024-07-12 15:12:07 发布

一只干巴巴的海绵

最新推荐文章于 2024-07-12 15:12:07 发布

阅读量352

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/Hanx09/article/details/105025842

版权

机器学习专栏收录该内容

26 篇文章 2 订阅

订阅专栏

LDA线性判别分析

有监督降维。目标是降维后的组内（同一类别）方差小，组间（不同类别）方差大。

作用：

降维
分类

SVM LDA

LDA的原理

1.将原有的 $p$ 维数据集，转换为 $k$ 维数据， $k < p$

寻找当前所在的 $p$ 线性空间的一个 $k$ 维线性子空间，在这个 $k$ 维空间表示这些数据（将数据投影到 $k$ 维空间）；

2.按照类别区分新生成的 $k$ 维数据，同一类别的数据点距离越近越好，不同类别间距离越远越好

与PCA相比，LDA更关心分类而不是方差。

如果将数据直接投影到连接两中心的向量上降维，数据会有重叠，并不是最优。本来可以进行线性分割数据，降维后无法进行线性分割了。 LDA
为减少重叠，降维的数据应满足两个特征：

不同类别数据降维后相互间的差异大；
同一类别数据降维后相互间的差异小；

也就是说，最大化类间距离和最小化类内距离。
在这里插入图片描述

LDA的推导

设有包含 $n$ 个样本的训练数据集 $T$ ，共有 $C$ 个类别，第 $i$ 个类别有 $n_i$ 个样本，可写第 $i$ 个类别的数据集 $D_i=\{x_i^j, j=1,2,...,n_i\}$ ，其中每个样本 $x_i^j$ 都是 $p$ 维的列向量， $i = 1, 2, . . ., C$ ，每个类别的样本均值及方差为，
$\mu_i=\frac{1}{n_i}\sum_{j=1}^{n_i}x_i^j$

$s_i^2=\frac{1}{n_i-1}\sum_{j=1}^{n_i}(x_i^j-\mu_i)^2$
整体的均值，
$\mu=\frac{1}{n}\sum_{i=1}^C\sum_{j=1}^{n_i}x_i^j$

情形一： $C = 2$

数据集只有两个类别，我们现在要将原始数据降低到只有一维。设 $w$ 是一个合适的投影方向，现在推导 $w$ 应该满足什么条件。
样本 $x_i^j$ 在 $w$ 方向的投影，
$y_i^j=w^Tx_i^j,\quad j=1,...,n_i,i=1,2$
投影后每个类别的样本均值与样本方差为，
$\tilde{\mu}_i=\frac{1}{n_i}\sum_{j=1}^{n_i}y_i^j=\frac{1}{n_i}\sum_{j=1}^{n_i}w^Tx_i^j=w^T\mu_i,\quad i=1,2$

$\tilde{s}_i^2=\frac{1}{n_i-1}\sum_{j=1}^{n_i}(y_i^j-\tilde{\mu}_i)^2=\frac{1}{n_i-1}\sum_{j=1}^{n_i}(w^T(x_i^j-\mu_i))^2=w^Ts_i^2w,\quad i=1,2$
我们希望投影后两类样例中心尽量地分离，即
$\max \quad|\tilde{\mu_1}-\tilde{\mu_2}|=\max \quad|w^T(\mu_1-\mu_2)|$
同时，我们希望投影后类内部方差 $\tilde{s}_i^2$ 越小越好，于是，得到目标函数，
$\max_{w} \quad J(w)=\frac{|\tilde{\mu_1}-\tilde{\mu_2}|^2}{\tilde{s}_1^2+\tilde{s}_2^2}=\frac{w^T(\mu_1-\mu_2)(\mu_1-\mu_2)^Tw}{w^T(s_1^2+s_2^2)w}$
定义类间散度矩阵 $S_b$ 及类内散度矩阵 $S_w$ 如下，
$S_w=\sum_{i=1}^2\sum_{j=1}^{n_i}(x_i^j-\mu_i)(x_i^j-\mu_i)^T$

$S_b=(\mu_1-\mu_2)(\mu_1-\mu_2)^T$

则可写目标函数，
$\max_{w} \quad J(w)=\frac{w^TS_bw}{w^TS_ww}$
最大化 $J (w)$ 只需对 $w$ 求偏导，并令导数等于0，即令分子为0，
$w^TS_ww)S_bw=(w^TS_bw)S_ww$
记 $\lambda=\frac{w^TS_bw}{w^TS_ww}$ ，这是最优目标函数值，一个常数，带入上式得到，
$S_bw=\lambda S_ww$
$S_w$ 是协方差阵，可逆，两边左乘 $S_w^{-1}$ ，
$S_w^{-1}S_bw=\lambda w$
至此，我们得到，最大化的目标对应了矩阵的最大特征值，而投影方向就是这个特征值对应的特征向量。

情形二： $C > 2$

数据集不只两个类别，降一维已经不能满足分类要求，需要 $k$ 个基向量来做投影， $W=(w_1,w_2,...,w_k)$ ，其中 $w_i$ 是 $p$ 维列向量，记样本 $x$ 在这组基上投影的结果为 $y=(y_1,y_2,...,y_k)$ ，
$y_i=w_i^Tx,\quad y=W^Tx$
类似地，可以定义，

类间散度矩阵
$S_b=\sum_{i=1}^Cn_i(\mu_i-\mu)(\mu_i-\mu)^T$
类内散度矩阵
$S_w=\sum_{i=1}^C S_{w_i},\quad S_{w_i}=\sum_{x\in D_i}(x-\mu_i)(x-\mu_i)^T$
全局散度矩阵
$S_t=S_b+S_w=\sum_{i=1}^n (x_i-\mu)(x_i-\mu)^T$

多分类LDA有多种实现方法：采用 $S_b,S_w,S_t$ 中的任意两个。

例如：
$\max_w \frac{tr(W^TS_bW)}{tr(W^TS_wW)}\Longrightarrow S_bW=\lambda S_w W$

LDA

参考：
线性判别分析LDA详解

一只干巴巴的海绵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【ML】降维：LDA线性判别分析

PCA主成分分析无监督降维。目标是降维后的数据方差尽可能的大。作用：聚类：把复杂的多维数据点，简化成少量数据点，易于分簇。降维：降低高维数据维度，简化计算，达到数据降维、压缩、降噪的目的。PCA的原理将原有的ppp维数据集，转换为kkk维数据，k<pk<pk<p。寻找当前所在的ppp线性空间的一个kkk维线性子空间，在这个kkk维空间表示这些数据（将数据...
复制链接

扫一扫