《统计学习方法》（1）——感知机

Wmnyang

于 2021-08-22 09:58:00 发布

阅读量205

点赞数

分类专栏：机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/Wmnyang/article/details/119846773

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

《统计学习方法》（1）——感知机

1958年，Rosenblatt等人成功研制了代号为Mark I的感知机(perceptron)，这是历史上首个神经网络的学习功能用于模式识别的装置，标志着神经网络进入了新的历史阶段。
$\quad$

1、感知机

感知机是二分类的线性分类模型，输入为实例的特征向量，输出是实例的类别，可以是-1和1。

试想一下我们有一数据集 $\{(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)\}$ ，其中 $x_i\in R^n,\quad y_i = 1\: or \: -1, \quad i=1,2,3,\dots,n.$ 并且假设该数据集是线性可分的，那我们想能否在n维空间找到一个超平面 $\omega^Tx + b = 0$ ，该平面将数据集划分为两个部分，一部分是 $y_i = 1$ ，另一部分 $y_i = 1$ 。如下图所示：
在这里插入图片描述

这个超平面将T中的数据分为两类，即有：
$\omega^Tx_i + b >0,\quad y_i = 1; \quad \omega^Tx_i + b < 0,\quad y_i = -1.$
从上图我们也可以看出，如果把斜率 $\omega$ 和截距 $b$ 稍微移动一点，也是可以分离两类数据的，所以感知机模型并不唯一。
同时我们也容易知道当一个特征向量 $x_i$ 被误分类时，就有 $y_i(\omega^Tx_i + b) < 0$ 成立。

下面我们就可以给出感知机的定义：
在这里插入图片描述

$\quad$

2、感知机的学习策略与算法

上面我们已经得出感知机的一般形式，关键就在于如何找出模型参数 $\omega$ 和 $b$ ，这里我们要使用损失函数 $L(\omega,b)$ ，我们希望找到使得损失函数 $L(\omega,b)$ 最小的 $\omega$ 和 $b$ 。

所以现在的问题就是如何定义损失函数，以及如何找到参数 $\omega$ 和 $b$ 。我们希望得到的损失函数是关于参数 $\omega$ 和 $b$ 的连续可偏导函数，这样求函数的极值比较方便，常用的损失函数是函数间隔
$L(\omega,b) = -\sum_{x_i \in M} y_i(\omega^T x_i +b)$ 其中M为误分点的集合。那么求参数问题就转化为求极小化损失函数问题，即 $min_{\omega,b}\: L(\omega,b)$ .

至于为什么不用几何间隔：
$-\cfrac {1}{||\omega||} \sum_{x_i \in M} y_i(\omega^T x_i +b)$ 其中 $||\omega|| = \sqrt{\sum_{i=1}^n \: w_i^2}$ 为 $L_2$ 范数。我想可以有以下理解：

首先要明确的一点是损失函数是以误分类驱动的，当无误分类点时，损失函数为0；其次对线性可分的数据集，一定是能找到分离超平面的，也就是说一定能找到 $\omega$ 和 $b$ ，使得损失函数为0，在这个意义下极小化损失函数这种表述并不准确（因为我们就是要损失函数为0）， $\frac {1}{||\omega||}$ 并不影响我们的结果。再者 $\frac {1}{||\omega||}$ 也不影响符号，所以我们完全可以不考虑它。

在确定了损失函数之后，感知机学习的策略就是在假设空间（即线性模型空间）中选取使损失函数最小的模型参数 $\omega$ 和 $b$ 。这就转化为最优化问题，而其求解的方法就是随机梯度下降法。

感知机学习算法如下：
输入：训练数据 $\{(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)\}$ ，其中 $x_i\in R^n,\quad y_i = 1\: or \: -1, \quad i=1,2,3,\dots,n.$ 学习率为 $\eta \in (0,1]$ .
输出： $\omega$ 和 $b$ ；
感知机模型 $sign(\omega^Tx +b)$ .

1、选取初试值 $\omega_0,b_0$ （一般都取0）；
2、在训练集中选取一个数据 $x_i,y_i)$ ；
3、若数据 $x_i,y_i)$ 是误分点，即 $y_i(\omega^Tx_i + b) \le 0$
$\begin{aligned} L(\omega,b) = -y_i(\omega^Tx_i + b)\\ \bigtriangledown_\omega L(\omega,b)) = -y_ix_i\\ \bigtriangledown_b L(\omega,b)) = -y_i \end{aligned}$ $\quad$ 我们根据负梯度方向更新参数：
$\begin{aligned} \omega \gets \omega + \eta y_i x_i\\ b \gets b+\eta y_i \:\:\:\:\: \end{aligned}$
4转至第二步，直到没有误分点为止。

$\quad$

3、感知机的收敛性

首先，对于线性可分的数据集，一定是有分离超平面的（这一点是由线性可分的数据集的定义保证的）。那么现在就有另一个问题，就是根据随机梯度下降法，一共需要多少次能找到，Novikoff定理告诉我们，经过有限次迭代就可以找到分离超平面和感知机模型，定理如下：
在这里插入图片描述

4、总结

1、感知机模型简单，易于实现；
2、局限性很大，需要是线性可分的数据集，对于非线性可分的情形不适用，比如无法解决异或问题；
3、感知机模型不唯一，依赖于初值的选择，也依赖于迭代过程中误分类点的选择顺序；
4、由于考虑的是函数间隔而不是几何间隔，有些情况下，数据点可能离分离超平面非常近，从某种程度上说这样的分类效果并不是特别好，这个问题会在支持向量机中得到很好的解决。

更多内容见公众号大数据与AI小白

Wmnyang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》（1）——感知机

《统计学习方法》（1）——感知机1958年，Rosenblatt等人成功研制了代号为Mark I的感知机(perceptron)，这是历史上首个神经网络的学习功能用于模式识别的装置，标志着神经网络进入了新的历史阶段。\quad1、感知机感知机是二分类的线性分类模型，输入为实例的特征向量，输出是实例的类别，可以是-1和1。试想一下我们有一数据集T={(x1,y1),(x2,y2),…,(xn,yn)}T = \{(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)\}T={(x1
复制链接

扫一扫

专栏目录