机器学习： Linear Discriminant Analysis 线性判别分析

最新推荐文章于 2024-07-06 16:11:59 发布

Matrix_11

最新推荐文章于 2024-07-06 16:11:59 发布

阅读量1.1w

点赞数 1

分类专栏：机器学习文章标签：机器学习

机器学习专栏收录该内容

113 篇文章 145 订阅

订阅专栏

Linear discriminant analysis (LDA) 线性判别分析也是机器学习中常用的一种降维算法，与 PCA 相比，
LDA 是属于supervised 的一种降维算法。PCA考虑的是整个数据集在高维空间的分散性，PCA降维之后依然要让数据在低维空间尽可能地分散。而LDA考虑的是类与类之间的差别(用距离来衡量)。

我们考虑两类情况下的LDA，
给定一个训练集 $D=\{ \mathbf{x}_{i} \in R^{d}\}, i=1,2,...N$ , 假设其中有 $n_{1}$ 个属于第一类 $c_{1}$ ， $n_{2}$ 个属于第二类 $c_{2}$ ， $N=n_{1}+n_{2}$ ， LDA 希望可以找到一个投影关系，使得原来的特征向量 $\mathbf{x}_{i}$ 投影到低维空间之后，类间的距离尽可能地大，而类内距离尽可能地小。

我们可以计算每一类的均值向量：

u 1 = 1 n 1 \sum x \in c 1 x u 2 = 1 n 2 \sum x \in c 2 x

$\mathbf{u}_{1}= \frac{1}{n_{1}}\sum_{\mathbf{x} \in c_{1}} \mathbf{x} \quad \mathbf{u}_{2}= \frac{1}{n_{2}}\sum_{\mathbf{x} \in c_{2}} \mathbf{x}$

假设投影为 $\mathbf{w}$ ，投影后为 $y$ , 那么 $y=\mathbf{w}^{T}\mathbf{x}$ , 我们也可以求出投影后的均值：

v 1 = 1 n 1 \sum y \in c 1 y = 1 n 1 \sum x \in c 1 w T x = w T u 1

$v_{1}= \frac{1}{n_{1}}\sum_{y\in c_{1}} y =\frac{1}{n_{1}}\sum_{\mathbf{x} \in c_{1}} \mathbf{w}^{T}\mathbf{x} =\mathbf{w}^{T}\mathbf{u}_{1}$

v 2 = 1 n 2 \sum y \in c 2 y = 1 n 2 \sum x \in c 2 w T x = w T u 2

$v_{2}= \frac{1}{n_{2}}\sum_{y\in c_{2}} y=\frac{1}{n_{2}}\sum_{\mathbf{x} \in c_{2}} \mathbf{w}^{T}\mathbf{x} =\mathbf{w}^{T}\mathbf{u}_{2}$

那么，我们可以设立如下的目标函数：

J = | v 1 - v 2 | = | w T u 1 - w T u 2 |

$J=| v_{1}-v_{2} |= | \mathbf{w}^{T}\mathbf{u}_{1}-\mathbf{w}^{T}\mathbf{u}_{2}|$

上面的目标函数，保证了映射之后类间距离尽可能大，但是无法保证类内距离尽可能小，为了让类内距离尽可能小，我们可以进一步定义：

$s_{1}^{2}=\sum_{y\in c_{1}} (y-v_{1})^2$
$s_{2}^{2}=\sum_{y\in c_{2}} (y-v_{2})^2$

$s_{1}^{2}, s_{2}^{2}$ 可以用来度量映射后每一类与类中心的分散程度。所以，最终的目标函数是：

J = | v 1 - v 2 | 2 s 2 1 + s 2 2

$J=\frac{| v_{1}-v_{2} |^{2}}{ s_{1}^{2}+s_{2}^{2} }$

我们可以定义投影前的向量 $\mathbf{x}$ 与类中心的分散程度：

$S_{i}=\sum_{\mathbf{x} \in c_{i}} (\mathbf{x} -\mathbf{u}_{i}) (\mathbf{x} -\mathbf{u}_{i})^{T}$

$S_{W}=S_{1}+S_{2}$

我们可以看到:

s 2 i = \sum y \in c i (y - v i) 2 = \sum x \in c i (w T x - w T u i) 2 = w T S i w

$s_{i}^{2}=\sum_{y\in c_{i}} (y-v_{i})^2=\sum_{\mathbf{x} \in c_{i}} (\mathbf{w}^{T}\mathbf{x}-\mathbf{w}^{T}\mathbf{u}_{i})^{2} =\mathbf{w}^{T} S_{i} \mathbf{w}$

s 21 + s 22 = w T S W w

$s_{1}^{2}+s_{2}^{2}=\mathbf{w}^{T} S_{W} \mathbf{w}$

同样的，我们有:

(v 1 - v 2) 2 = (w T u 1 - w T u 2) 2 = w T (u 1 - u 2) (u 1 - u 2) T w = w T S B w

$(v_{1}-v_{2})^{2}=(\mathbf{w}^{T}\mathbf{u}_{1}-\mathbf{w}^{T}\mathbf{u}_{2})^{2}=\mathbf{w}^{T}(\mathbf{u}_{1}-\mathbf{u}_{2}) (\mathbf{u}_{1}-\mathbf{u}_{2})^{T}\mathbf{w}=\mathbf{w}^{T}S_{B}\mathbf{w}$

S B = (u 1 - u 2) (u 1 - u 2) T

$S_{B}=(\mathbf{u}_{1}-\mathbf{u}_{2}) (\mathbf{u}_{1}-\mathbf{u}_{2})^{T}$

所以最终的目标函数是：

J (w) = w T S B w w T S W w

$J(\mathbf{w})=\frac{\mathbf{w}^{T}S_{B}\mathbf{w}}{\mathbf{w}^{T} S_{W} \mathbf{w}}$

最终得到的投影 $\mathbf{w}^{\star}$ :

w ⋆ = a r g m a x [w T S B w w T S W w] = S - 1 W (u 1 - u 2)

$\mathbf{w}^{\star}=argmax \left[ \frac{\mathbf{w}^{T}S_{B}\mathbf{w}}{\mathbf{w}^{T} S_{W} \mathbf{w}} \right]=S_{W}^{-1}(\mathbf{u}_{1}-\mathbf{u}_{2})$

对于多类的LDA, 我们不能简单地将原来的向量 $\mathbf{x}$ 投影到一个标量 $y$ ，我们需要投影到一个低维的向量 $\mathbf{y}$ 上。一个有 $C$ 类的训练集 $D=\{ \mathbf{x} \in R^{d}\}$ 含有 $N$ 个样本, $N=\sum{n_i}$ . 我们需要找到一个投影矩阵 $W$ , 使得 $\mathbf{y}=W^{T}\mathbf{x}$ 。

我们可以先定义

S w = \sum i = 1 c S i S i = \sum x \in c i (x - u i) (x - u i) T

$S_{w}=\sum_{i=1}^{c} S_{i} \quad S_{i}=\sum_{\mathbf{x} \in c_{i}} (\mathbf{x} -\mathbf{u}_{i}) (\mathbf{x} -\mathbf{u}_{i})^{T}$

S B = \sum i = 1 c N i (u i - u) (u i - u) T u = 1 N \sum x

$S_{B}=\sum_{i=1}^{c} N_{i} (\mathbf{u}_{i}-\mathbf{u})(\mathbf{u}_{i}-\mathbf{u})^{T} \quad \mathbf{u}=\frac{1}{N} \sum \mathbf{x}$

那么目标函数可以写成:

J (W) = | W T S B W | | W T S W W |

$J(W)= \frac{| \mathbf{W}^{T}S_{B}\mathbf{W} | }{ | \mathbf{W}^{T} S_{W} \mathbf{W} |}$

最后的投影矩阵可以表示为: $W=[\mathbf{w}_{1}, \mathbf{w}_{2}, ... \mathbf{w}_{k} ]$ , 其中 $\mathbf{w}_{i}$ 满足如下关系:

S B w i = λ i S W w i \to S - 1 W S B w i = λ i w i

$S_{B}\mathbf{w}_{i}=\lambda_{i} S_{W}\mathbf{w}_{i} \rightarrow S_{W}^{-1}S_{B}\mathbf{w}_{i}=\lambda_{i} \mathbf{w}_{i}$

$\mathbf{w}_{i}$ 是矩阵 $S_{W}^{-1}S_{B}$ 的特征向量, 所以简单来说，可以先对矩阵 $S_{W}^{-1}S_{B}$ 做特征值分解，然后取前 $k$ 个大的特征值所对应的特征向量，组成投影矩阵。但是由于 S_{B} 的秩不会超过 $c-1$ ，所以 $k$ 最大也就是 $c-1$ ，取前面 $k$ 个特征向量组成投影矩阵。对于两类的情况, $c=2$ , $k=1$ , 所以两类的情况下，LDA投影得到的是一个标量。