模式识别中的感知器

HS_Jack_ZZZ

于 2022-08-16 11:55:26 发布

阅读量443

点赞数 1

文章标签：机器学习线性代数算法人工智能

本文链接：https://blog.csdn.net/HS_Jack_ZZZ/article/details/126363102

版权

本文介绍了感知器模型在模式识别中的应用，特别是在线性可分情况下的工作原理。通过增广样本向量和规范化，简化了线性判别函数，并提出了解空间和余量的概念。感知器准则函数用于衡量分类错误，通过梯度下降法迭代更新权重，以找到最佳解向量。文章详细阐述了迭代过程，并对比了不同修正策略的效率。

摘要由CSDN通过智能技术生成

模式识别中的感知器

在Fisher线性判别分析中，我们把线性分类器的设计分为两步：一是确定最优的投影方向 $\mathbf{\vec{w}}$ ，二是在这个投影方向上确定分类阈值。那么有没有一种方法可以省去求解最优的投影方向步骤，直接取得完整的线性判别函 $g(\vec{x})=\mathbf{\vec{w}}^T\vec{x}+w_0$ 呢？这一小节我们就学习这样一种方法——感知器。

我们要得到的判别函数是 $g(\vec{x})=\mathbf{\vec{w}}^T\vec{x}+w_0$ ，这个 $w_0$ 可以用线性代数的方法加入到 $\mathbf{\vec{w}}^T\vec{x}$ 中去。我们将向量 $\vec{x}$ 增加一维，取常数1，即：
$\vec{y}=[1,x_1,...,x_d]^T$
我们称 $\vec{y}$ 为增广的样本向量。那么 $\mathbf{\vec{w}}$ 这一项变为增广的权向量：
$\vec{a}=[w_0,w_1,...,w_d]^T$
由此，线性判别函数由
$g(\vec{x})=\mathbf{\vec{w}}^T\vec{x}+w_0$
变为
$g(\vec{y})=\vec{a}^T\vec{y}$

书中定义了一个新的变量 $\vec{y}'$ ，使得下式成立：
$\vec{y'}=\left\{\begin{matrix}\vec{y_i},&若\vec{y_i}\in w_1\\-\vec{y_i'},&若\vec{y_i}\in w_2 \end{matrix}\right.$
则样本可分性条件就是存在权向量 $\vec{a}$ ，使
$\vec{a}^T\vec{y_i'}>0,~~i=1,2,...,N$
这样定义的 $\vec{y_i'}$ 称作规范化增广样本向量。为了讨论方便，我们将 $\vec{y'}$ 仍然记为 $\vec{y}$ 。式（6）到底有什么用呢？可以理解为，如果每一个样本 $\vec{y}$ 都可以归类到正确的类别，那么对于每一个样本， $\vec{a}^T\vec{y_i'}>0$ 都会成立。参照下面这张图会有利于理解：
请添加图片描述

现在我们讨论线性可分的情况（如上面左图所式）。

如果一个权向量 $\vec{a}$ 满足 $\vec{a}^T\vec{y_i'}>0$ ，对所有 $\vec{y_i'}$ 都成立，那么称这个 $\vec{a}$ 为一个解向量。所有解向量组成的区域称作解区间。我们知道，我们要求解的这个向量 $\vec{a}$ 是使所有 $\vec{a}^T\vec{y_i'}>0$ 都成立。那么增广的样本向量位于超平面 $\vec{a}^T\vec{y_i'}=0$ 的正侧，即如下图所示：
请添加图片描述

权向量 $\vec{a}$ 能唯一确定一个超平面 $\vec{a}^T\vec{y_i'}=0$ ，那么求解这个区间，就是需要使所有样本都落在向量 $\vec{a}$ 确定的超平面的正侧。下图给出了，蓝色直角线确定了以样本 $\vec{y_1}$ 确定的一个解向量边界线；黄色直角线确定了以样本 $\vec{y_2}$ 确定的一个解向量边界线。由此可得出全部的解向量空间。
请添加图片描述

很显然，灰色阴影部分就是向量 $\vec{a}$ 的所有解空间。但是有一个问题就是在黄线和蓝线上的样本是分类正确的还是分类错误的呢？考虑到噪声、数值计算误差等因素，靠近区间中间的向量应该更可靠。所以，我们用余量这个概念将解区间缩小，不取靠近边缘的解。形式化表示就是，引入余量 $b > 0$ ，满足
$\vec{a}^T\vec{y_i}>b$
下面这张图描述了这个过错。需要注意的是，新的解空间由深黄线和深蓝线围成，注意这里的线不是向量了！只有当解向量指向阴影空间内才是符合要求的权向量 $\vec{a}$ 。如果想知道为什么浅蓝和深蓝线之间的距离是 $\frac{b}{||\vec{y_2}||}$ ，可以再去复习一下线性判别函数的基本概念。
请添加图片描述

下面我们开始去寻找这个解向量。

如果样本 $\vec{y_k}$ 被错误分类，则 $\vec{a}^T\vec{y_i}\le0$ 。我们可以用对所有错分样本的求和来表示对错分样本的惩罚
$J_P(\vec{a})=\sum_{\vec{a}^T\vec{y_k}\le0}(-\vec{a}^T\vec{y_k})$
上式是感知器准则函数。

显然，对于线性可分的情况。当且仅当 $J_P(\vec{a^*})=minJ_P(\vec{a})=0$ 时 $\vec{a^*}$ 是解向量。

感知器准则函数式的最小化可以用梯度下降法迭代求解:
$\vec{a}(t+1)=\vec{a}(t)-\rho_t\nabla J_P(\vec{a})$
这个式子的含义是：下一时刻的权向量是把当前时刻的权向量向目标函数的副梯度方向调整一个修正量步长 $\rho_t$ 。

式子中
$\nabla J_P(\vec{a})=\frac{\partial J_P(\vec{a})}{\partial \vec{a}}=\sum_{\vec{a}^T\vec{y_k}\le0}(-\vec{y_k})$
那么，式（9）就可以写为：
$\vec{a}(t+1)=\vec{a}(t)-\rho_t\sum_{\vec{a}^T\vec{y_k}\le0}(-\vec{y_k})$
这个式子是向所有在权向量为 $\vec{a}(t)$ 时不能正确分类的样本 $\vec{y_k}$ 求向量和方向上修正。有点绕是不是，我画了下面这张图会不会好理解一点呢？刚开始， $\vec{y_1}$ 和 $\vec{y_2}$ 都不能被正确分类，在它们的和方向上进行修正，为一次迭代的结果。
请添加图片描述