感知机【图文，详细推导】

格兰芬多_未名

已于 2024-05-11 19:51:47 修改

阅读量6.5k

点赞数 71

分类专栏：机器学习文章标签：机器学习笔记人工智能

于 2023-12-21 10:51:56 首次发布

本文链接：https://blog.csdn.net/v20000727/article/details/135125425

版权

机器学习专栏收录该内容

21 篇文章

订阅专栏

这里记录一下学习机器学习课程的笔记，老师用的参考教材是李航的《机器学习方法》。

第一章机器学习简介
 第二章感知机
 第三章支持向量机
 第四章朴素贝叶斯分类器
 第五章 Logistic回归
 第六章线性回归和岭回归
 第七章多层感知机与反向传播【Python实例】
第八章主成分分析【PCA降维】
第九章隐马尔可夫模型
 第十章奇异值分解

感知机（PLA）在1957 年，由 Rosenblatt 提出，是神经网络和支持向量机的基础。PLA 全称是 Perceptron Linear Algorithm，即线性感知机算法，属于一种最简单的感知机模型。感知机是二分类的线性分类模型，其输入为实例的特征向量，输出为实例的类别，取值为+1和-1。

一、超平面

感知机的核心思想是用一个超平面来将数据集二分类，所以首先我们来介绍一下什么是超平面，超平面是具有下面形式的点的集合:
$\Omega=\{x|a^Tx=b\} ,其中 a\in R^n,a≠0 且 b\in R.$ 超平面是关于 $x$ 的非平凡线性方程组的解空间。为了从几何上来直观理解，首先, 我们选取这样的一点 $x_0$ , 使得 $a^T x_0=b$ （若不存在这样的 $x_0$ , $\Omega$ 为空集），然后我们对原式做如下变换:
$\begin{aligned} & a^T x=b \\ \Rightarrow\quad &a^T x-b=0 \\ \Rightarrow\quad& a^T x-a^T x_0=0 \\ \Rightarrow\quad& a^T\left(x-x_0\right)=0 \end{aligned}$
也就是说， $x$ 代表所有与 $a$ 内积为 b 的向量组成的集合， $x−x_0$ 代表所有与 $a$ 内积为0的向量组成的集合。在二维条件下，我们先尝试构造出 $x−x_0$ 与 $a$ 的几何表示：

橙色线上的点与原点构成的向量即为 $x-x_0$ (内积为0，相互垂直），那么 $x=(x-x_0 )+x_0$ (相对于黄色的线平移 $x_0$ ），如下图所示:

由图可知红色直线上的点到 $a$ 向量方向的投影 $|x|\cos\theta$ 为一个定值，故 $<a,x>=|a||x|\cos\theta=b$ 。通过以上的介绍，我们知道在二维空间中，超平面是一条直线。在三维空间中则是一个平面，更高维空间则称之为超平面。

二、感知机定义

下面我们先给出感知机的定义，本质就是一个分类函数的模型。
定义（感知机）

假设输入空间(特征空间)是 $\mathcal{X}\subseteq R^n$ , 输出空间是 $\mathcal{Y}=\{+1,-1\}$ 。输入 $x\in\mathcal{X}$ 表示实例的特征向量，对应于输入空间(特征空间)的点；输出 $y\in\mathcal{Y}$ 表示实例的类别。由输入空间到输出空间的如下函数
$f(x)=\operatorname{sign}(w\cdot x+b)$ 称为感知机。

其中:

$w$ 和 $b$ 为感知机模型参数（超平面参数）， $w\in R^n$ 叫作权值, $b\in R$ 叫作偏置；
$w\cdot x$ 表示 $w$ 和 $x$ 的内积;
sign 是符号函数，即 $\operatorname{sign}(x)=\begin{cases}+1,\quad x\geq0, \\ -1,\quad x < 0. \end{cases}$
感知机对应的超平面 $w x + b = 0$ 称为分离超平面；

也就是说，我们想用一个超平面将两类点分开，如下图所示，黑色点和红色点是两类标签取值不同的点， $x^{(1)},x^{(2)}$ 是数据的特征，我们可以用直线将其“分开”.
在这里插入图片描述

感知机是受生物学上的启发创造的，可以类比我们大脑的神经元。神经元通过树突、轴突等接受信号、处理信号，然后将信号在输出。为了模拟机器来实现这样一个过程，那么感知机就构建了一个类似的结构：

上面的神经元的激活函数取符号函数（sign），便得到感知机模型。而在神经网络结构里，前馈神经网络也是由这样一个个神经元构成，只不过激活函数一般取sigmoid函数、tanh函数等。（见多层感知机与反向传播）

三、学习策略和学习算法

1 线性可分

在二维空间上，如果两类点可以被一条直线（高维空间叫超平面）完全分开叫做线性可分。

严格的数学定义是：

设 $D_{0}$ 和 $D_{1}$ 是 $\mathrm{n}$ 维欧氏空间中的两个点集，如果存在 $\mathrm{n}$ 维向量 $\mathrm{w}$ 和实数 $\mathrm{b}$ , 使得：

所有属于 $D_{0}$ 的点 $x_{i}$ 都有 $w x_{i}+b>0$
而对于所有属于 $D_{1}$ 的点 $x_{j}$ 则有 $w x_{j}+b<0$ , 则我们称 $D_{0}$ 和 $D_{1}$ 线性可分
从二维扩展到多维空间中时, 将 $D_{0}$ 和 $D_{1}$ 完全正确地划分开的 $w x + b = 0$ 就成了一个超平面。

如果数据不是线性可分的，那么便不能用感知机进行分类，见第四节的讨论（感知机不能表示异或函数）。

2 损失函数定义

假设数据集是线性可分的，接下来需要定义损失函数，我们注意到：

当 $x_i$ 被 $(w, b)$ 正确分类，则 $y_i(w\cdot x_i+b)>0.$ （给定 $w$ 和 $b$ 很容易判断误分类点）
对误分类的数据 $x_i,y_i)$ ：
$-y_i(w\cdot x_i+b)>0$ 可以作为 $x_i$ 被误分类的损失.

设误分类的点集为M，则考虑： $\sum\limits_{x_i\in M}-y_i(w\cdot x_i+b).$ 感知机 $f(x)=\operatorname{sign}(w\cdot x+b)$ 学习的损失函数定义为：
$L(w,b)=-\sum_{x_i\in M}y_i(w\cdot x_i+b).$ 由这个定义我们知：

损失函数是非负的（因为只计算误分类点）;
若没有误分类点，损失函数为0，所以一个自然的想法就是最小化损失函数。

有了损失函数，感知机的学习问题转化为如下最优化问题，给定训练数据集
$D=\left\{\left(x_i, y_i\right)\right\}_{i=1}^N,$

求参数 $w$ 和 $b$ 使之为如下优化问题的解：
$min _{w, b} L(w, b).$

3 优化算法—SGD

由上面对感知机问题的分析知，感知机模型的求解是一个无约束优化问题，可以采用随机梯度下降法。梯度下降法的基本思想是：负梯度方向是函数值下降最快的方向.若误分类的点集 $M$ 固定， $L (w, b)$ 的梯度由如下给出：
$\begin{aligned} \nabla_wL &=-\sum_{x_i\in M}y_ix_i\\ \nabla_bL &=-\sum_{x_i\in M}y_i. \end{aligned}$ 随机梯度下降法(SGD)的核心思想是随机选取一个误分类点 $x_i,y_i)$ ,对参数进行更新:
$\begin{aligned} w &= w-\eta\nabla_wL,& b &=b-\eta\nabla_bL,\\ &=w+\eta y_ix_i .& &=b+\eta y_i. \end{aligned}$ 其中 $\eta(0<\eta\leq1)$ 是步长 (或学习率)。通过迭代，使 $L (w, b)$ 不断减小，直至为0.

截屏2023-12-21 10.41.55

由学习算法知，迭代次数主要和误分类点有关，下面给出这个算法的收敛性分析。

4 算法收敛性

为了表述方便，令 $w^+=(w^T,b)^T,x^+=(x^T,1)^T.$ 下面给出收敛性定理，证明见参考资料.

Novikoff定理

设训练数据集 $D=\left\{\left(x_i, y_i\right)\right\}_{i=1}^N$ 是线性可分的，其中 $x_i \in \mathcal{X}=\mathrm{R}^n, y_i \in \mathcal{Y}=\{+1,-1\}$ , 则

存在满足 $\left\|w_{o p t}^{+}\right\|=1$ 的超平面 $w_{o p t}^{+} \cdot x^{+}=0$ 将训练数据集完全正确分开;
存在 $\gamma>0$ ，对所有 $\geq 1, y_i w_{o p t}^{+} \cdot x_i^{+} \geq \gamma$ ;
令 $R=\max\limits_{1 \leq i \leq N}\left\|x_i^{+}\right\|$ , 则感知机算法在训练集上的误分类次数 $k$ 满足: $\leq\left(\frac{R}{\gamma}\right)^2$ .

上述定理表明，误分类次数有上界，所以算法会在有限次迭代后终止。

四、感知机的缺点

Minsky 与Papert指出：因为感知机是线性模型，所以不能表示复杂的函数，如异或函数。

这里给出证明，我们考虑只有两个变量的情况，异或 $\oplus$ 运算的规则如下：

$x_1$	$x_2$	$x_1\oplus x_2$
0	0	0
0	1	1
1	0	1
1	1	0

其实在图上画出异或函数的四个点，很明显能看出不能用一条线分开这两类点：
在这里插入图片描述

为了严谨给出严格的数学证明。考虑如下的感知机模型:
$f(\boldsymbol{x}) = \operatorname{sign}(\boldsymbol{w}^T\boldsymbol{x} + b)$
其中 $\boldsymbol{x} = (x_1,x_2)^T$ , $\boldsymbol{w} = (w_1,w_2)^T$ ， $\operatorname{sign}(x) = \begin{cases} 1, & x \geq 0 \\ -1, & x < 0 \end{cases}$ .接下来我们证明感知机不能表示异或。

反证法.假设感知机可以模拟异或运算,则必须满足:

当 $\boldsymbol{x}=(0,0)^T$ 时,有 $f(\boldsymbol{x}) = 0$ ,从而 $b < 0$ ;
当 $\boldsymbol{x}=(1,0)^T$ 时,有 $f(\boldsymbol{x}) = 1$ ,从而 $w_1>-b>0$ ;
当 $\boldsymbol{x}=(0,1)^T$ 时,有 $f(\boldsymbol{x}) = 1$ ,从而 $w_2>-b>0$ ;
但是,当 $\boldsymbol{x}=(1,1)^T$ 时,有: $f(\boldsymbol{x}) = \operatorname{sign}(w_1+w_2+b) = 1$ ,与 $x_1\oplus x_2=0$ 矛盾。

因此,原假设不成立,感知机无法模拟异或逻辑运算。