（《机器学习》完整版系列）第3章线性模型——3.3 线性判别分析LDA（将平面上点投影到线上）

人工干智能

已于 2023-03-31 10:21:39 修改

阅读量272

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：平面机器学习人工智能算法概率论

于 2023-02-21 21:45:57 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129150680

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 26 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

在属性坐标系中先找到一条过原点的线，将平面上点投影到这条线上，从而将“平面上点的分类”转化为“线上点的分类”。

线性判别分析

二分类LDA

线性判别分析（LDA）【西瓜书图3.3】所示，采用“博文待写小节”中的属性坐标系，在该坐标系中先找到一条过原点的线，将平面上点投影到这条线上，从而将“平面上点的分类”转化为“线上点的分类”。

1.理解LDA

表达式 $\boldsymbol{w}^\mathrm{T}\boldsymbol{x}$ 是两同维向量的内积（点乘）注：向量内积的另外表示有 $<\boldsymbol{w},\boldsymbol{x}>$ 和 $\boldsymbol{w}\cdot\boldsymbol{x}$ \ ，其几何意义为向量 $\boldsymbol{x}$ 在向量 $\boldsymbol{w}$ 上的投影
，在该坐标系下仍为一个向量。然而，通常将向量 $\boldsymbol{w}$ 延伸成一个数轴 $O y$ ，则投影点（垂点）在该数轴上的坐标 $y$ 即为一个标量，故有线性表达式 $y=\boldsymbol{w}^\mathrm{T}\boldsymbol{x}$ 。

【西瓜书图3.3】中，有一个坐标系 $O\boldsymbol{x}$ （视为超平面），用于放样本点 $\{\boldsymbol{x}_i\}_{i=1}^m$ ，在该坐标系中另有一个数轴 $O y$ （一维坐标系）用于放样本点的回归值 $y_i$ ，数轴 $O y$ 的原点与坐标系 $O\boldsymbol{x}$ 的原点重合，数轴方向为向量 $\boldsymbol{w}$ 的方向，将上述线性表达式应用于每个样本点，即有变换关系式 $y_i=\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i$ ，几何意义为样本点（多维）到数轴（一维）上的投影，这种情况下有个有趣的结果：投影点即为该样本的回归值。

现在在坐标系 $O\boldsymbol{x}y$ （即 $O\boldsymbol{x}\,+\,Oy$ ）中每样本点 $\boldsymbol{x}_i$ 有对应预测的回归值 $y_i$ 和实际的标记（“ $+$ ”或“ $-$ ”），让数轴 $O y$ 固定原点旋转，通过旋转实现图中的如下“尽可能”：

（1）类内“尽可能紧凑”——可用方差来体现：类内方差尽可能小。因有两类，故为两类类内方差之和尽可能小；

（2）类间“尽可能远”——可用距离来体现：类间距离尽可能大。

综合目标为最大化 $J$
$\begin{align} J=\frac{\text{类间距离}}{\text{正例类内方差+反例类内方差}} \tag{1} \end{align}$

2.式子表达

将样本集按正样本和负样本分开，正例样本集为 $\boldsymbol{X}_0=\{\boldsymbol{x}_i^+\}_{i=1}^{m^+}$ ，反例样本集为 $\boldsymbol{X}_1=\{\boldsymbol{x}_i^-\}_{i=1}^{m^-}$ ，其中， $m=m^++m^-)$ ，则形成表3.1。
在这里插入图片描述

表3.1中的（协）方差是省去了分母的（这是为了方便），实际是离差平方和，即
$\begin{align} \begin{cases} \boldsymbol{\Sigma }_0=\mathop{\sum}\limits_{\substack{\boldsymbol{x}\in\boldsymbol{X}_0}}(\boldsymbol{x}-\boldsymbol{\mu}_0)(\boldsymbol{x}-\boldsymbol{\mu}_0)^\mathrm{T} \\ \boldsymbol{\Sigma }_1=\mathop{\sum}\limits_{\substack{\boldsymbol{x}\in\boldsymbol{X}_1}}(\boldsymbol{x}-\boldsymbol{\mu}_1)(\boldsymbol{x}-\boldsymbol{\mu}_1)^\mathrm{T} \end{cases} \tag{2} \end{align}$
两类之间的距离用两类的中心点间的距离表示，为方便取其平方。再由上述综合目标式(1)即得【西瓜书式(3.32)】。

定义类内散度（ $\mathbf{S}_{\mathrm{w}}$ ：within-class scatter matrix）和类间散度（ $\mathbf{S}_{\mathrm{b}}$ ：between-class scatter matrix）后，即得LDA的最大化目标【西瓜书式(3.35)】，其分子的推导补充如下：
$\begin{align} ||\boldsymbol{w}^{\mathrm{T}}\boldsymbol{\mu}_0-\boldsymbol{w}^{\mathrm{T}}\boldsymbol{\mu}_1||^2 & =(\boldsymbol{w}^{\mathrm{T}}\boldsymbol{\mu}_0-\boldsymbol{w}^{\mathrm{T}}\boldsymbol{\mu}_1)(\boldsymbol{w}^{\mathrm{T}}\boldsymbol{\mu}_0-\boldsymbol{w}^{\mathrm{T}}\boldsymbol{\mu}_1)^\mathrm{T}\notag \\ & =\boldsymbol{w}^{\mathrm{T}}(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)^\mathrm{T}\boldsymbol{w}\notag \\ & =\boldsymbol{w}^{\mathrm{T}}\mathbf{S}_{\mathrm{b}}\boldsymbol{w} \tag{3} \end{align}$

【西瓜书式(3.35)】中分子和分母的对称性知，若 $\boldsymbol{w}'$ 为其解，则 $\alpha \boldsymbol{w}'$ 也为其解，故可以调节 $\alpha$ 的值到 $\alpha '$ ，使得分母为1，此时令 $\alpha' \boldsymbol{w}'= \boldsymbol{w}$ ，则 $\boldsymbol{w}^\mathrm{T}\mathbf{S}_{\mathrm{w}}\boldsymbol{w}=1$ ，于是转化成优化问题【西瓜书式(3.36)】（注：为满足拉格朗日乘子法的要求，通过添加负号将 $\max$ 变为 $\min$ ）。

多分类LDA

对于多分类（如， $N$ 类），我们将标记转化为 $N$ 维向量形式：当某样本 $\boldsymbol{x}$ 属于第 $k$ 类时，取标记向量为第 $k$ 位为1，其余位全为0。进一步地（转化为回归问题），将标记向量“放松”为 $N$ 维“概率向量” $(p_1;p_2;\cdots;p_N)$ ，即样本 $\boldsymbol{x}$ 的标记向量由其属于各类的概率组成，当它实际属于第 $k$ 类时，标记向量的第 $k$ 位值最大。然而，由于概率之和为1，故该“概率向量”的自由度为 $(N - 1)$ 维（设前 $(N - 1)$ 位自由），即样本 $\boldsymbol{x}$ 对应于 $(N - 1)$ 维向量 $\boldsymbol{P}=(p_1;p_2;\cdots;p_{N-1})$ 。

作线性变换
$\begin{align} \boldsymbol{y}=\mathbf{W}^\mathrm{T}\boldsymbol{x} \tag{4} \end{align}$
则现在向量 $\boldsymbol{y}$ 对应于 $(N - 1)$ 维向量 $\boldsymbol{P}=(p_1;p_2;\cdots;p_{N-1})$ ，我们并不必关心其具体的对应关系，不妨取为最简单的“正比例”关系，即 $\boldsymbol{y}=\alpha \boldsymbol{P}$ 。由此得到向量 $\boldsymbol{y}$ 可取 $(N - 1)$ 维，又已知样本 $\boldsymbol{x}$ 为 $d$ 维，故由式(4)可推得 $\mathbf{W}$ 应为 $d\times (N-1)$ 维矩阵。

由式(4)可得
$\begin{align} \boldsymbol{y}-\boldsymbol{\mu}_{\boldsymbol{y}} =\mathbf{W}^\mathrm{T}(\boldsymbol{x}-\boldsymbol{\mu }_{\boldsymbol{x}}) \tag{5} \end{align}$
其中， $\boldsymbol{\mu }_{\boldsymbol{y}}$ 和 $\boldsymbol{\mu }_{\boldsymbol{x}}$ 分别为对应变量在取值范围内的均值。

有了上述准备后，我们可以对各类“散度”进行分析。

将样本集按类别进行分解，即 $\boldsymbol{X}= \boldsymbol{X}^1\cup\boldsymbol{X}^2\cup \cdots\cup\boldsymbol{X}^N$ （依变换(4)有对应的 $\boldsymbol{Y}= \boldsymbol{Y}^1\cup\boldsymbol{Y}^2\cup \cdots\cup\boldsymbol{Y}^N$ ），
则有
$\begin{align} \mathbf{S}_{\mathrm{b}} & =\sum_{\boldsymbol{x}_i\in \boldsymbol{X}}(\boldsymbol{x}_i-\boldsymbol{\mu})(\boldsymbol{x}_i-\boldsymbol{\mu})^\mathrm{T} -\sum_{k=1}^N\sum_{\boldsymbol{x}_i\in \boldsymbol{X}^k}(\boldsymbol{x}_i-\boldsymbol{\mu}_k)(\boldsymbol{x}_i-\boldsymbol{\mu}_k)^\mathrm{T}\notag \\ & =\sum_{k=1}^N\sum_{\boldsymbol{x}_i\in \boldsymbol{X}^k}\left[(\boldsymbol{x}_i-\boldsymbol{\mu})(\boldsymbol{x}_i-\boldsymbol{\mu})^\mathrm{T}-(\boldsymbol{x}_i-\boldsymbol{\mu}_k)(\boldsymbol{x}_i-\boldsymbol{\mu}_k)^\mathrm{T}\right]\notag \\ & =\sum_{k=1}^N\sum_{\boldsymbol{x}_i\in \boldsymbol{X}^k}\left[\boldsymbol{\mu}\boldsymbol{\mu}^\mathrm{T}-\boldsymbol{\mu}_k\boldsymbol{\mu}_k^\mathrm{T}+2(\boldsymbol{\mu}_k-\boldsymbol{\mu})\boldsymbol{x}_i^\mathrm{T}\right]\notag \\ & =\sum_{k=1}^N\left[m_k(\boldsymbol{\mu}\boldsymbol{\mu}^\mathrm{T}-\boldsymbol{\mu}_k\boldsymbol{\mu}_k^\mathrm{T})+2(\boldsymbol{\mu}_k-\boldsymbol{\mu})m_k\boldsymbol{\mu}_k^\mathrm{T}\right]\notag \\ & =\sum_{k=1}^Nm_k\left[\boldsymbol{\mu}\boldsymbol{\mu}^\mathrm{T}+\boldsymbol{\mu}_k\boldsymbol{\mu}_k^\mathrm{T} +2\boldsymbol{\mu}_k\boldsymbol{\mu}^\mathrm{T}\right]\notag \\ & =\sum_{k=1}^Nm_k(\boldsymbol{\mu}-\boldsymbol{\mu}_k)(\boldsymbol{\mu}-\boldsymbol{\mu}_k)^\mathrm{T} \tag{6} \end{align}$
即为【西瓜书式(3.43)】。

利用式(5)就可以得到 $\boldsymbol{y}$ 各“散度”。如“全局散度”
$\begin{align} \mathbf{S}_{\mathrm{t}}^{\boldsymbol{y}} & =\sum_{\boldsymbol{y}_i\in \mathbf{Y}} (\boldsymbol{y}_i-\boldsymbol{\mu}_{\boldsymbol{y}}) (\boldsymbol{y}_i-\boldsymbol{\mu}_{\boldsymbol{y}})^\mathrm{T}\notag \\ & =\sum_{\boldsymbol{x}_i\in \boldsymbol{X}} (\mathbf{W}^\mathrm{T}(\boldsymbol{x}_i-\boldsymbol{\mu }) ) (\mathbf{W}^\mathrm{T}(\boldsymbol{x}_i-\boldsymbol{\mu }) )^\mathrm{T}\notag \\ & = \mathbf{W}^\mathrm{T}\left[\sum_{\boldsymbol{x}_i\in \boldsymbol{X}}(\boldsymbol{x}_i-\boldsymbol{\mu }) (\boldsymbol{x}_i-\boldsymbol{\mu })^\mathrm{T}\right]\mathbf{W}\notag \\ & = \mathbf{W}^\mathrm{T} \mathbf{S}_{\mathrm{t}}\mathbf{W} \tag{7} \end{align}$