Linear Classification Model

苏西月

已于 2024-10-09 03:58:16 修改

阅读量718

点赞数 7

分类专栏： aml 文章标签：人工智能机器学习

于 2024-10-08 22:26:39 首次发布

本文链接：https://blog.csdn.net/qq_51011530/article/details/142771017

版权

aml 专栏收录该内容

51 篇文章 0 订阅

订阅专栏

在二元线性分类模型中，我们希望通过一个线性函数来预测输入特征向量 $\mathbf{x}$ 的类别标签 $y$ ，并且类别标签 $y$ 是二元的，即 $\in \{0, 1\}$ 。这个过程可以通过以下步骤详细解释：

1. 输入特征向量与类别标签

我们有一个输入特征向量 $\mathbf{x} \in \mathbb{R}^D$ ，其中 $D$ 是特征的维数，表示我们有 $D$ 个输入特征。我们还假设我们的类别标签 $y$ 是二元的，取值范围为 ${0, 1\}$ 。例如：

$y = 0$ ：表示类别 0（例如，非垃圾邮件）。
$y = 1$ ：表示类别 1（例如，垃圾邮件）。

2. 线性函数表示

我们使用一个线性函数来表示输入特征与输出类别之间的关系，这个函数的形式为：

$f(\mathbf{x}; \mathbf{w}) = w_0 + w_1 x_1 + w_2 x_2 + \dots + w_D x_D$

这可以更简洁地写成矩阵形式：

$f(\mathbf{x}; \mathbf{w}) = w_0 + \sum_{d=1}^{D} w_d x_d = \mathbf{w}^\top \boldsymbol{\phi}(\mathbf{x})$

其中：

$\mathbf{w} = [w_0, w_1, \dots, w_D]^\top$ 是权重向量，表示我们对每个特征的影响进行加权。
$\boldsymbol{\phi}(\mathbf{x}) = [1, x_1, x_2, \dots, x_D]^\top$ 是包含一个偏置项 $1$ 的特征向量。

这个线性函数的核心思想是通过将每个特征 $x_d$ 与相应的权重 $w_d$ 相乘，再加上一个偏置项 $w_0$ ，来决定最终的输出值。

3. 线性函数输出与分类

我们得到的 $f(\mathbf{x}; \mathbf{w})$ 是一个连续值，可以大于或小于 0。为了将这个连续值转换为二元分类结果（即 $y = 0$ 或 $y = 1$ ），我们使用 阈值（thresholding） 方法：

$\hat{y} = \begin{cases} 1 & \text{如果 } \mathbf{w}^\top \boldsymbol{\phi}(\mathbf{x}) \geq 0 \\ 0 & \text{如果 } \mathbf{w}^\top \boldsymbol{\phi}(\mathbf{x}) < 0 \end{cases}$

即：

如果 $\mathbf{w}^\top \boldsymbol{\phi}(\mathbf{x}) \geq 0$ ，我们预测 $\hat{y} = 1$ （例如，垃圾邮件）。
如果 $\mathbf{w}^\top \boldsymbol{\phi}(\mathbf{x}) < 0$ ，我们预测 $\hat{y} = 0$ （例如，非垃圾邮件）。

通过这种方式，线性分类器会根据特征的加权和结果来决定所属的类别。

4. 解释参数 $\mathbf{w}$

权重 $w_1, w_2, \dots, w_D$ ：这些权重参数衡量每个特征对最终分类的贡献。例如，如果某个权重 $w_d$ 很大，那么对应的特征 $x_d$ 对预测结果有很大的影响。
偏置 $w_0$ ：这个参数控制分类边界的偏移。如果没有偏置项 $w_0$ ，那么所有的决策边界都会通过原点，而加入偏置可以使决策边界更灵活。

5. 线性分类模型的几何解释

在线性分类器中，分类边界是一个超平面。在二维空间中，这个超平面就是一条直线，而在三维或更高维的情况下，它是一个平面或更高维的超平面。线性分类器根据特征向量 $\mathbf{x}$ 相对于该超平面的位置进行分类：

如果 $\mathbf{x}$ 位于超平面的一侧，预测为 $y = 1$ ；
如果 $\mathbf{x}$ 位于另一侧，预测为 $y = 0$ 。

6. 应用场景与优点

这种线性分类模型广泛应用于许多分类问题，如垃圾邮件检测、疾病预测等。它的优点包括：

计算效率高：线性分类器的计算简单，并且可以很容易扩展到高维特征空间。
解释性强：线性模型可以直观地解释每个特征对分类结果的影响。

7. 线性分类器的几何视角

决策边界的定义：
- 决策边界由 $w^T \phi(x) = 0$ 定义。
- 其中， $\tilde{w}$ 是去除偏置项 $w_0$ 的权重向量，且 $\tilde{w}$ 垂直于决策边界。
关于偏置项 $w_0$ 的影响：
- 当 $w_0 = 0$ 时，决策边界 $w^T \phi(x) = 0$ 是一条通过原点并且与 $\tilde{w}$ 垂直的直线。
- 当 $w_0 \neq 0$ 时，偏置项会将决策边界从原点平移开来。
原点到决策边界的最短距离：
- 若 $p$ 是决策边界上距离原点最近的点，那么原点到决策边界的距离可以表示为：
  $\text{距离} = \frac{|w_0|}{||\tilde{w}||}$

如果一条直线的定义公式是 $2 x + 3 y - 6 = 0$ ,那么这条直线的法向量是 $[2，3]^\top$ , ${||\tilde{w}||} = \sqrt{(2^2+3^2)}$

8. 可线性分离与不可线性分离

线性可分问题：
- 如果我们可以找到一个超平面来基于类标签分离数据，则该问题是线性可分的。
- 如图所示，超平面（如直线）可以将红色和蓝色点完全分开，这就是线性可分的例子。
线性不可分问题：
- 如果没有一个超平面可以完全基于类标签分离数据，则该问题是线性不可分的。
- 如图的右侧例子所示，某些红色和蓝色点无法通过一条直线完全分开。
导致不能完全分离的原因：
- 模型过于简单，无法捕捉数据的复杂结构。
- 输入特征过于简单，没有涵盖数据中的所有变化。
- 输入特征中存在噪声。
- 类标签中存在标注错误。