机器学习笔记之线性分类——线性判别分析(一)模型构建思路

静静的喝酒

已于 2022-08-30 10:35:07 修改

阅读量791

点赞数

分类专栏：机器学习文章标签：机器学习线性判别分析样本空间映射硬分类

于 2022-08-27 08:00:17 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/126541034

版权

机器学习专栏收录该内容

195 篇文章 230 订阅

订阅专栏

机器学习笔记之线性分类——线性判别分析之模型构建思路

引言

引言

上一节介绍了线性分类中硬分类的代表方法——感知机算法(Perceptron)，本节将介绍硬分类中的另一种经典算法——线性判别分析(Linear Discriminant Analysis,LDA)。

回顾：线性分类与硬分类

线性分类与线性回归的模型形式是相同的——都是高维样本空间中的一条直线(超平面)。但由于任务性质不同，对应直线(超平面)使用的方式截然不同：

回归任务是模型拟合样本，回归任务中使用直线(超平面)的目的是基于给定的真实样本，如何最大程度地描述整个样本空间中样本的趋势。
分类任务是模型划分样本，分类任务中使用直线(超平面)的目的是直线(超平面)对样本空间划分后，样本空间中的样本在对应样本子空间中呈现分类效果。

给予上述思路，线性回归与线性分类的模型之间的核心区别是全局特征结果 $\mathcal W^{T}x^{(i)} + b$ 是否为线性特征。

线性回归模型表示如下：
$f(\mathcal W,b) = \mathcal W^{T}x^{(i)} + b$
线性分类模型表示如下：
$f(\mathcal W,b) = sign(\mathcal W^{T}x^{(i)} + b)$

其中 $s i g n$ 函数被称作激活函数，是一种非线性函数。硬分类中对于激活函数映射结果 $y_{pred}^{(i)}$ 所对应的特征空间与真实标签 $y^{(i)}$ 对应的特征空间相同。以 ${-1,1\}$ 二分类为例表示如下：
$y_{pred}^{(i)},y^{(i)} \in \{-1,1\}(i=1,2,\cdots,N)$
而这种性质映射在激活函数中，具体表现为 基于阈值的分段函数：
$\begin{cases}1 \quad if \quad y_{pred}^{(i)} > k \\ -1 \quad else \end{cases}$

线性判别分析

场景描述

数据集合 $Data=\{(x^{(i)},y^{(i)})\}_{i=1,2,\cdots,N}$ 由样本集合 $\mathcal X$ 和标签集合 $\mathcal Y$ 构成：
$\{\mathcal X,\mathcal Y\} \\ \mathcal X = \{x^{(1)},x^{(2)},\cdots,x^{(N)}\} \\ \mathcal Y = \{y^{(1)},y^{(2)},\cdots,y^{(N)}\}$
其中 $N$ 表示样本数量，任意一个样本 $x^{(i)}(i=1,2,\cdots,N)$ 均是 $p$ 维向量，对应 $y^{(i)}$ 是一个标量。 $\mathcal X,\mathcal Y$ 向量表示如下：
$\begin{aligned}\mathcal X & = (x^{(1)},x^{(2)}, \cdots,x^{(N)})^{T}=\begin{pmatrix}x_1^{(1)},x_2^{(1)},\cdots,x_p^{(1)} \\ x_1^{(2)},x_2^{(2)},\cdots,x_p^{(2)} \\ \vdots \\ x_1^{(N)},x_2^{(N)},\cdots,x_p^{(N)}\end{pmatrix}_{N \times p} \\ \mathcal Y & = (y^{(1)},y^{(2)},\cdots,y^{(N)})^{T} = \begin{pmatrix}y^{(1)} \\ y^{(2)} \\ \vdots \\ y^{(N)}\end{pmatrix}_{N \times 1}\end{aligned}$

设标签集合 $\mathcal Y$ 的空间分布为：
$y^{(i)} \in \{1,-1\}(i=1,2,\cdots,N)$
并假设标签集合中结果为1对应的样本集合为 $\mathcal X_{ C_1}$ ,结果为-1 对应的样本集合为 $\mathcal X_{C_2}$ 。即：
$\mathcal X_{C_1} = \{x^{(i)} \mid y^{(i)} = 1\} \\ \mathcal X_{C_2} = \{x^{(i)} \mid y^{(i)} = -1\}$
记集合 $\mathcal X_{C_1}$ 中样本数量为 $N_1$ ，集合 $\mathcal X_{C_2}$ 中样本数量为 $N_2$ ，那么集合 $\mathcal X_{C_1},\mathcal X_{C_2}$ 包含如下性质：
$\mathcal X_{C_1} \cup\mathcal X_{C_2} = \mathcal X \\ N_1+N_2 = N$

线性判别分析思想

由于线性判别分析的模型形式依然是样本空间中的一条直线，用最朴素的思想将线性判别分析理解为：高内聚、低耦合。

具体意思是指：以二分类为例，存在某条直线对样本空间进行划分从而得到两个样本子空间，如果该直线使被划分的每个样本子空间内部样本之间的距离足够小的同时，两个样本子空间的样本距离足够大，即可达到线性分类的目的。

但由于每个样本 $x^{(i)}(i=1,2,\cdots,N)$ 均是 $p$ 维向量，我们计算样本间距离是非常麻烦的——为了简化上述思想，使用降维：将 $p$ 维空间中的所有样本点全部映射到一维空间中。

在几何角度观察高斯分布中介绍过，将当前的 $p$ 维坐标系映射到另一个 $p$ 维坐标系中，本质上是将样本点的每一维度结果乘以对应维度的参考系向量，从而得到一个新的 $p$ 维向量：
$\begin{pmatrix}k_1 \\k_2 \\ \vdots \\ k_p\end{pmatrix},k_i = x^{T}u_i \quad(i=1,2,\cdots,p)$
其中， $u_i \in \mathbb R^p,x \in \mathbb R^p$ 。通过观察可以看出，基于新的特征空间向量 $k$ 中每个维度分量 $k_i$ 都需要原始向量 $x$ 乘以对应维度的参考系向量 $u_i$ 。那么整个参考系矩阵 $U$ 自然是 $\times p$ 维度：
$(u_1,u_2,\cdots,u_p)^{T}_{p \times p}$

线性判别分析中并不是将 $p$ 维空间映射到 $p$ 维空间，而只是将 $p$ 维空间映射到1维空间。基于上述逻辑，参考系矩阵 $U$ 只需要是一个 $p$ 维向量，从而将原始的 $p$ 维向量映射成一个标量(1维坐标系中的点)：
某一具体 $p$ 维样本点 $x^{(i)} = (x_1^{(i)},x_2^{(i)},\cdots,x_p^{(i)})^{T}$ ,被映射的1维参考系为 $\hat U = (\hat {u_1}, \hat {u_2},\cdots,\hat {u_p})^{T}_{p \times 1}$ ，它的映射结果 $k^{(i)}$ 表示如下：
$k^{(i)} = {x^{(i)}}^{T} \hat U = (x_1^{(i)},x_2^{(i)},\cdots,x_p^{(i)})\begin{pmatrix}\hat {u_1} \\ \hat{u_2} \\ \vdots \\ \hat{u_p}\end{pmatrix} = x_1^{(i)}\hat {u_1} + x_2^{(i)}\hat {u_2} + \cdots x_p^{(i)}\hat {u_p}$

我们发现：这种表现形式和 $\mathcal W^{T}x^{(i)}$ 殊途同归。此时，我们可以给 $\mathcal W$ 一个实际意义：

$\mathcal W$ 是 $p$ 维样本空间映射到1维空间的参考系。判定 $\mathcal W$ 优劣的标准是：对映射后的一维空间中的子空间内尽最大程度满足高内聚、低耦合条件。一旦找到最优参考系 $\hat {\mathcal W}$ ，通过最优参考系求解最优模型斜率 $\hat {\mathcal W}^{T}$ ，最后通过调整偏置项 $b$ (阈值)来确定最终模型。
由于参考系 $\mathcal W$ 与模型参数 $\mathcal W^{T}$ 之间属于垂直关系，一旦参考系被确定，那么模型直线的方向也自然被确定。

关键问题在于：如何确定最优 $\mathcal W$ ?这里需要一个策略(损失函数)。这个损失函数如何构建？此时就需要用数学符号表示“高内聚、低耦合”思想了。

思想的符号化表示

回到当前样本集合 $\{(x^{(i)},y^{(i)})\}_{i=1,2,\cdots,N}$ ，假设 $\mathcal W$ 是 $p$ 维样本空间映射到1维空间的参考系，并定义 映射后的特征结果为 $z^{(i)}$ 。 $z^{(i)}$ 的数学符号表示如下：
$z^{(i)} = \mathcal W^{T}x^{(i)}$
由于 $z^{(i)}$ 是一个标量，其实际意义可以理解为样本点 $x^{(i)}$ 在参考系 $\mathcal W$ 上投影的具体结果；
也可以直接理解成‘数轴’ $\mathcal W$ 上的一个实数点；
由于每一组数据都包含真实标签信息，按照真实标签结果进行划分。结合场景描述，分别将标签为 $1, - 1$ 的样本点使用参考系 $\mathcal W$ 进行投影，并将均值结果作为各分类标签对应样本点投影的综合考量：
令 $\bar {\mathcal Z_1},\bar {\mathcal Z_2}$ 分别为样本集合 $\mathcal X_{C_1},\mathcal X_{C_2}$ 内样本点投影后的均值结果。
$\bar {\mathcal Z_1} = \frac{1}{N_1}\sum_{i=1}^{N_1} \mathcal W^{T}x^{(i)} \\ \bar {\mathcal Z_2} = \frac{1}{N_2}\sum_{i=1}^{N_2} \mathcal W^{T}x^{(i)}$
至此，我们将 $\bar {\mathcal Z_1},\bar {\mathcal Z_2}$ 之间的差距 作为原始 $p$ 维空间被划分后的样本子空间的综合考量距离，由于 $\bar {\mathcal Z_1},\bar {\mathcal Z_2}$ 之间大小关系不确定，因此类间关系定义如下：
$\bar {\mathcal Z_1},\bar {\mathcal Z_2}$ 之间差距越大，类间关系越清晰，就越容易被模型划分；
$(\bar {\mathcal Z_1} - \bar {\mathcal Z_2})^2$

同理，分别计算 各类标签对应样本点投影的方差 作为各类标签对应样本点内部凝聚程度的综合考量：
令 $\mathcal S_1,\mathcal S_2$ 分别为样本集合 $\mathcal X_{C_1},\mathcal X_{C_2}$ 内部样本点投影的方差结果。
$\mathcal S_1 = \frac{1}{N_1} \sum_{j=1}^{N_1}(\mathcal W^{T}x^{(j)} - \bar {\mathcal Z_1})(\mathcal W^{T}x^{(j)} - \bar {\mathcal Z_1})^{T} \\ \mathcal S_2 = \frac{1}{N_2}\sum_{j=1}^{N_2}(\mathcal W^{T}x^{(j)} - \bar {\mathcal Z_2})(\mathcal W^{T}x^{(j)} - \bar {\mathcal Z_2})^{T}$
至此，分别得到了 两组标签对应样本点的凝聚程度信息，类内关系定义如下：
$\mathcal S_1,\mathcal S_2$ 越小，意味着各分类内部样本点的凝聚程度越高，越容易被模型划分；
$\mathcal S_1 + \mathcal S_2$

最终，结合类内、类间关系的性质，构建策略如下：
$\mathcal J(\mathcal W)$ 结果越大，样本更容易被模型划分；
$\mathcal J(\mathcal W) = \frac{(\bar {\mathcal Z_1} - \bar {\mathcal Z_2})^2}{\mathcal S_1 + \mathcal S_2}$

将上述公式化简为含变量 $\mathcal W$ 的结果：
观察分子，将分子展开：
$\begin{aligned}(\bar {\mathcal Z_1} - \bar {\mathcal Z_2})^2 & = \left(\frac{1}{N_1} \sum_{j=1}^{N_1} \mathcal W^{T}x^{(j)} - \frac{1}{N_2}\sum_{j=1}^{N_2}\mathcal W^{T}x^{(j)}\right)^2 \end{aligned}$
由于 $\mathcal W^{T}$ 中不含 $j$ ，视为常数，因此将 $\mathcal W^{T}$ 提出：
$\left[\mathcal W^{T}\left(\frac{1}{N_1}\sum_{j=1}^{N_1}x^{(j)} - \frac{1}{N_2}\sum_{j=1}^{N_2}x^{(j)}\right)\right]^2$
观察， $\frac{1}{N_1}\sum_{j=1}^{N_1}x^{(j)},\frac{1}{N_2}\sum_{j=1}^{N_2}x^{(j)}$ 包含实际意义，即 两组标签对应原始样本点的均值结果。具体定义如下：
$\bar {\mathcal X_{C_1}} = \frac{1}{N_1}\sum_{j=1}^{N_1}x^{(j)} \\ \bar {\mathcal X_{C_2}} = \frac{1}{N_2}\sum_{j=1}^{N_2}x^{(j)}$
最终分子可以表示为如下格式：
$\begin{aligned}(\bar {\mathcal Z_1} - \bar {\mathcal Z_2})^2 & = \left[\mathcal W^{T} \left(\bar {\mathcal X_{C_1}} - \bar {\mathcal X_{C_2}}\right)\right]^2 \\ & = \mathcal W^{T}(\bar {\mathcal X_{C_1}} - \bar {\mathcal X_{C_2}})(\bar {\mathcal X_{C_1}} - \bar {\mathcal X_{C_2}})^{T} \mathcal W\end{aligned}$

观察分母，观察其中一项： $\mathcal S_1$
$\begin{aligned}\mathcal S_1 & = \frac{1}{N_1}\sum_{j=1}^{N_1}(\mathcal W^{T}x^{(j)} - \bar {\mathcal Z_1})(\mathcal W^{T}x^{(j)} - \bar {\mathcal Z_1})^{T} \\ & = \frac{1}{N_1}\sum_{j=1}^{N_1}\left(\mathcal W^{T}x^{(j)} - \frac{1}{N_1}\sum_{i=1}^{N_1}\mathcal W^{T}x^{(i)}\right)\left(\mathcal W^{T}x^{(j)} - \frac{1}{N_1}\sum_{i=1}^{N_1}\mathcal W^{T}x^{(i)}\right)^{T} \end{aligned}$
同上， $\mathcal W^{T}$ 不含 $i, j$ ，视为常数；化简求得：
$\mathcal S_1 = \mathcal W^{T}\left[\frac{1}{N_1}\sum_{j=1}^{N_1}(x^{(j)} - \bar {\mathcal X_{C_1}})(x^{(j)} - \bar {\mathcal X_{C_1}})^{T}\right]\mathcal W$
观察中间项： $\frac{1}{N_1}\sum_{j=1}^{N_1}(x^{(j)} - \bar {\mathcal X_{C_1}})(x^{(j)} - \bar {\mathcal X_{C_1}})^{T}$ ，它同样具有实际意义，即： $\mathcal X_{C_1}$ 样本集合的方差结果。 同样适用一个符号定义该数值：
$\mathcal S_{C_1} = \frac{1}{N_1} \sum_{j=1}^{N_1}(x^{(j)} - \bar {\mathcal X_{C_1}})(x^{(j)} - \bar {\mathcal X_{C_1}})^{T}$

至此， $\mathcal S_1$ 可记作为如下格式：
$\mathcal S_1 = \mathcal W^{T}\mathcal S_{C_1}\mathcal W$
同理， $\mathcal S_2$ 可记作如下格式：
$\mathcal S_{C_2}$ 表示 $\mathcal X_{C_2}$ 样本集合的方差结果；
$\mathcal S_2 = \mathcal W^{T}\mathcal S_{C_2}\mathcal W$
分母结果可表示为：
$\mathcal W^{T}(\mathcal S_{C_1} + \mathcal S_{C_2})\mathcal W$

最终，基于高内聚、低耦合思想的关于模型参数 $\mathcal W$ 的策略 $\mathcal J(\mathcal W)$ 表示如下：
$\begin{aligned}\mathcal J(\mathcal W) & = \frac{(\bar {\mathcal Z_1} - \bar {\mathcal Z_2})^2}{\mathcal S_1 + \mathcal S_2} \\ & = \frac{\mathcal W^{T}(\bar {\mathcal X_{C_1}} - \bar {\mathcal X_{C_2}})(\bar {\mathcal X_{C_1}} - \bar {\mathcal X_{C_2}})^{T}\mathcal W}{\mathcal W^{T}(\mathcal S_{C_1} + \mathcal S_{C_2})\mathcal W}\end{aligned}$

观察最终结果，除了 $\mathcal W$ ，其他符号如 $\mathcal S_{C_1},\mathcal S_{C_2},\bar {\mathcal X_{C_1}},\bar {\mathcal X_{C_2}}$ 均可以通过样本集合 $\{(x^{(i)},y^{(i)})\}_{i=1,2,\cdots,N}$ 直接求解。均为已知项。

下一节针对策略 $\mathcal J(\mathcal W)$ 求解最优模型参数 $\hat {\mathcal W}$ .

相关参考：
机器学习-线性分类3-线性判别分析-模型定义

静静的喝酒

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习笔记之线性分类——线性判别分析(一)模型构建思路

上一节介绍了线性分类中硬分类的代表方法——感知机算法(Perceptron)，本节将介绍硬分类中的另一种经典算法——线性判别分析(Linear Discriminant Analysis)。
复制链接

扫一扫