【机器学习算法】感知机模型

最新推荐文章于 2024-02-19 11:00:00 发布

Mankind_萌凯

最新推荐文章于 2024-02-19 11:00:00 发布

阅读量1k

点赞数 1

分类专栏：机器学习之旅文章标签：感知机机器学习

本文链接：https://blog.csdn.net/hemk340200600/article/details/87540695

版权

机器学习之旅专栏收录该内容

33 篇文章 2 订阅

订阅专栏

文章目录

1. 感知机模型
2. 收敛性证明（Novikoff定理）
3. 感知机对偶形式
4.感知机的缺点
5.感知机的几个变形
- 5.1 投票感知机
- 5.2 平均感知机

1. 感知机模型

感知机模型是一个二分类的模型，它通过形如 $y = w x + b$ 的式子将实例x转换为类别，取+1和-1表示，从而将实例进行划分。它是简单并且容易实现的一个模型。
感知机模型主要用来将平面上线性可分的数据集进行划分，对于线性不可分的数据集，感知机无法收敛。
感知机模型的输入输出由以下函数进行映射，其中w是n维空间的一个向量，b是偏置，sign是符号函数。
$\\ sign(x)= \begin{cases} +1 & x \ge 0 \\ -1 & x \lt 0 \end{cases}..........(2)$
对于感知机的学习策略，我们可以考虑当一个实例点被误分类，则调整w，b的值，使分离超平面向该误分类点的一侧移动，减少该误分类点与超平面的距离，直至超平面越过该误分类点使其正确分类。于是有感知机的损失函数
$L(w,b)=-\sum_{x_i \in M}y_i(w·x_i+b)..........(3)$
其中M为误分类点的集合。可以发现 $y_i(w·x_i+b)$ 恒为正数，当所有点都完全分类正确时，损失函数为0。对于一个误分类的样本点来说，式子(3)是w，b的连续可导函数。所以采用随机梯度下降法进行学习。感知机学习算法的原始形式如下：

定义初始的 $w_0,b_0$ 。
扫描训练集，若 $y_i(w·x_i+b) \le 0$ ，则更新 $w=w+\eta y_ix_i,b=b+\eta y_i$
重复2，直至不存在误分类点。

c不同的初始值，或者误分类点的选取顺序不同，都可能使得最后得到的w和b不同。

2. 收敛性证明（Novikoff定理）

我们如何保证在算法原始模型中，经过有限次的迭代后一定会收敛呢？下面我们进行收敛性的证明。首先令 $\hat w \hat x=w·x+b$ 。假设最终得到的超平面 $\hat w_{opt}·\hat x=w_{opt}·x+b_{opt}=0$ ，使 $||\hat w_{opt}||=1$ ，因此对于所有的样本i，有
$y_i(\hat w_{opt}·\hat x_i) \gt 0$
存在
$\gamma =\min_{i}\{y_i(w_{opt}·x_i+b_{opt})\}$
使得
$y_i(\hat w_{opt}·\hat x_i) \ge \gamma..........(4)$
选择初值 $\hat w_0$ ，令 $\hat w_{k-1}$ 是第k个误分类实例之前的权重向量，则第k个误分类实例的条件是
$y_i(\hat w_{k-1}·\hat x_i)=y_i(w_{k-1}·x_i+b_{k-1}) \le 0.........(5)$
假如样本 $x_i,y_i)$ 被误分类，则更新权重和偏置
$w_k=w_{k-1}+\eta y_ix_i \\ b_k=b_{k-1}+\eta y_i$
即
$\hat w_{k}=\hat w_{k-1}+\eta y_i\hat x_i..........(6)$
由式子4和6得
$\begin{aligned} \hat w_k \hat w_{opt} &=\hat w_{k-1}· \hat w_{opt} + \eta y_i \hat w_{opt} · \hat x_i \\ &\ge \hat w_{k-1}· \hat w_{opt} +\eta \gamma..........(7) \end{aligned}$
因此可得 $\hat w_k$ 和 $\hat w_{k-1}$ 之间的递推式，从而有
$\hat w_k \hat w_{opt} \ge \hat w_{k-1}· \hat w_{opt} +\eta \gamma \ge \hat w_{k-2}· \hat w_{opt} +2\eta \gamma \ge ... \ge k\eta \gamma..........(8)$
令 $R=\max\limits_{1 \le i \le N}||x_i||$ ，又由式子5和6推得
$\begin{aligned} ||\hat w_k||^2 &=||\hat w_{k-1}||^2 + 2\eta y_i \hat w_{k-1}·\hat x_i+\eta ^2 ||\hat x_i||^2 \\ &\le ||\hat w_{k-1}||^2 +\eta ^2 ||\hat x_i||^2 \\ &\le ||\hat w_{k-1}||^2 +\eta ^2 R^2 \\ &\le ||\hat w_{k-2}||^2 +2\eta ^2 R^2 \\ &\le ... \\ &\le k\eta ^2 R^2 ..........(9) \end{aligned}$
结合8和9，得到
$k\eta \gamma \le \hat w_{k} · \hat w_{opt} \le ||\hat w_k||||\hat w_{opt}|| \le \sqrt{k}\eta R$
于是
$\le \left(\frac{R}{\gamma}\right)^2..........(10)$
根据10，我们知道误分类次数k是有上界的，也就是说经过有限次分类我们一定能找到将训练数据完全分开的超平面。

3. 感知机对偶形式

假设w和b初始值均为0，对于误分类点通过 $w=w+\eta y_ix_i$ 和 $b=b+\eta y_i$ 逐步修改，设修改N次，则最后学习到的w和b分别是
$w=\sum_{i=1}^Na_iy_ix_i \\ b=\sum_{i=1}^Na_iy_i$
其中 $a_i=n_i\eta$ ， $n_i$ 表示第i个实例点由于被误分而更新的次数。则我们的感知机模型可以表示为 $f(x)=sign\left(\sum\limits_{j=1}^Na_jy_j x_j·x+b\right)$
感知机算法的对偶形式总结如下：

初始化 $\vec a=0，b=0$
遍历训练集，如果当前样本 $y_i\left(\sum\limits_{j=1}^Na_jy_j x_j·x+b\right) \le 0$ ，则更新 $a_i=a_i+\eta，b=b+\eta y_i$
重复2直至没有误分类数据。

由于训练过程中需要不停地计算內积，因此可以先将训练实例的內积计算出来并以矩阵的形式存储，这个矩阵被称为Gram矩阵。

4.感知机的缺点

在数据集线性可分时，感知器虽然可以找到一个超平面把两类数据分开，
但并不能保证能其泛化能力。
感知器对样本顺序比较敏感。每次迭代的顺序不一致时，找到的分割超平
面也往往不一致。
如果训练集不是线性可分的，就永远不会收敛

5.感知机的几个变形

5.1 投票感知机

投票感知器记录第k 次更新后得到的权重 $w_k$ 在之后的训练过程中正确分类样本的次数 $c_k$ 。这样最后的分类器形式为:
$sgn(\sum_{k=1}^Kc_ksgn(w^T_kx))$
投票感知机需要保存K个权重向量，带来额外开销。

5.2 平均感知机

为了降低开销，对投票感知机的式子进行简化，得到
$\begin{aligned} y & = sgn(\sum_{k=1}^K(c_kw_k)^Tx) \\ & = sgn(\bar w^Tx) \end{aligned}$

Mankind_萌凯

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【机器学习算法】感知机模型

1.感知机模型感知机模型是一个二分类的模型，它通过形如y=wx+by=wx+by=wx+b的式子将实例x转换为类别，取+1和-1表示，从而将实例进行划分。它是简单并且容易实现的一个模型。感知机模型主要用来将平面上线性可分的数据集进行划分，对于线性不可分的数据集，感知机无法收敛。感知机模型的输入输出由以下函数进行映射，其中w是n维空间的一个向量，b是偏置，sign是符号函数。f(...
复制链接

扫一扫