一文详解感知机模型算法收敛性的公式推导

最新推荐文章于 2022-04-23 14:01:51 发布

Jack_0601

最新推荐文章于 2022-04-23 14:01:51 发布

阅读量1.4k

点赞数 1

分类专栏：知识点文章标签：感知机收敛性公式推导

本文链接：https://blog.csdn.net/weixin_43509263/article/details/89060640

版权

知识点专栏收录该内容

14 篇文章 1 订阅

订阅专栏

$\quad\quad$ 我们知道，对于线性可分数据集感知机学习算法原始形式收敛，即经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型。
这里，我们记 $\hat{w}=\left(w^{T}, b\right)^{T}$ , $\hat{x}=\left(x^{T}, 1\right)^{T}$
其中， $\hat{x} \in R ^{n+1}$ ， $\in R ^{n+1}$
显然，我们可以得到： $\hat{w} \cdot \hat{x}=w \cdot x+b$

Novikoff 定理： 设训练数据集 $T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}$ 是线性可分的，其中
$x_{i} \in \chi=R^{n}, \quad y_{i} \in Y=\{-1,+1\}, \quad i=1,2, \cdots, N$ ，则：
$\quad\quad$ （1）存在满足条件 $\left\|\hat{w}_{o p t}\right\|=1$ 的超平面 $\hat{w}_{o p t} \cdot \hat{x}=w_{o p t} \cdot x+b_{o p t}=0$ 将训练数据集完全正确分开；且存在γ>0，对所有 $\cdots, N$ ，我们有: $y_{i}\left(w_{o p t} \cdot x_{i}\right)=y_{i}\left(w_{o p t} \cdot x_{i}+b_{o p t}\right) \geq \gamma \quad(*)$
$\quad\quad$ （2）感知机算法原始模式在训练数据集上的误分类次数k满足不等式： $\leq\left(\frac{R}{\gamma}\right)^{2}$
其中， $R=\max _{1 \leq i \leq N}\left\|x_{i}\right\| \quad(* *)$

接下来，然我们来证明该算法的收敛性——
1- 由于训练数据集是线性可分的，因此必然存在超平面可以将训练数据集完全正确分开，我们这里取其中的一个超平面为 $w_{o p t} \cdot x_{i}=w_{o p t} \cdot x_{i}+b_{o p t}=0$ ，使 $\left\|w_{o p t}^{\wedge}\right\|=1$ ，由于对有限的 $\cdots, N$ ，均有
$y_{i}\left(\hat{w}_{o p t} \cdot \hat{x_{i}}\right)=y_{i}\left(w_{o p t} \cdot x_{i}+b_{o p t}\right)>0$
所以存在有
$\gamma=\min _{i}\left\{y_{i}\left(w_{o p t} \cdot x_{i}+b_{o p t}\right)\right\}$
使得
$y_{i}\left(\hat{w}_{o p t} \cdot \hat{x_{i}}\right)=y_{i}\left(w_{o p t} \cdot x_{i}+b_{o p t}\right) \geq \gamma$
证毕。
ps:这里解释下，对于 $y_{i}\left(\hat{w}_{o p t} \cdot \hat{x_{i}}\right)$ ,这里表示的是真实值和预测值的乘积，由于我们取的是完全可分离的超平面，故真实值和预测值必然是一致的，不同的只是这些预测点距离分离面的距离不同，这里取γ表示所有预测点中距离超平面最小距离的那个，故任意一个正确分类点必然是大于等于这个γ值。

2- 感知机算法是从 $\hat{w}_{0}=0$

开始的，如果实例被误分类，则更新权重。令 $\hat{w}_{k-1}$ 是第k个误分类实例之前的扩充向量，即 $\hat{w}_{k-1}=\left(w_{k-1}^{T}, b_{k-1}\right)^{T}$
则第k个误分类实例的条件是
$y_{i}\left(\hat{w}_{k-1} \cdot \hat{x}_{i}\right)=y_{i}\left(w_{k-1} \cdot x_{i}+b_{k-1}\right) \leq 0\quad (***)$

若 $x_i,y_i)$ 是被 $\hat{w}_{k-1}=\left(w_{k-1}^{T}, b_{k-1}\right)^{T}$ 误分类的数据，则w和b的更新为： $w_{k} \leftarrow w_{k-1}+\eta y_{i} x_{i}$
$b_{k} \leftarrow b_{k-1}+\eta y_{i}$
即 $\hat{w}_{k} =\hat{w}_{k-1}+\eta y_{i} \hat{x}_{i}$
下面推导两个不等式：

（1） $\hat{w}_k \cdot \hat{w}_{o p t} \geq k \eta \gamma$

这里，我们将 $\hat{w}_{k} 替换为\hat{w}_{k-1}+\eta y_{i} \hat{x}_{i}$ 代入 $\hat{w}_k \cdot \hat{w}_{o p t}$ 可得到：
$\begin{aligned} \hat{w}_{k} \cdot \hat{w}_{o p t} &=\left(\hat{w}_{k-1}+\eta y_{i} \hat{x}_{i}\right) \hat{w}_{o p t} \\ &=\hat{w}_{k-1} \cdot \hat{w}_{o p t}+\eta y_{i} \hat{w}_{o p t} \cdot \hat{x}_{i} \\ & \geq \hat{w}_{k-1} \cdot \hat{w}_{o p t}+\eta \gamma \end{aligned}$
上面我们代入了 $y_{i}\left(\hat{w}_{o p t} \cdot \hat{x_{i}}\right)=y_{i}\left(w_{o p t} \cdot x_{i}+b_{o p t}\right) \geq \gamma$ ，经过化简得到了：
$\hat{w}_{k} \cdot \hat{w}_{o p t} \geq\hat{w}_{k-1} \cdot \hat{w}_{o p t}+\eta \gamma$ ，通过递归此不等式我们可以进一步的得到：
$\hat{w}_{k} \cdot \hat{w}_{o p t} \geq\hat{w}_{k-1} \cdot \hat{w}_{o p t}+\eta \gamma\geq\hat{w}_{k-2} \cdot \hat{w}_{o p t}+2\eta\gamma\geq\cdots\geq\hat{w}_{0} \cdot \hat{w}_{o p t}+k\eta\gamma$
根据初始条件我们可知 $\hat{w}_{0}=0$ ，因此我们可以得到 $\hat{w}_k \cdot \hat{w}_{o p t} \geq k \eta \gamma.$

（2） $\left\|\hat{w}_{k}\right\|^{2} \leq k \eta^{2} R^{2}$

这里，我们将 $\hat{w}_{k} =\hat{w}_{k-1}+\eta y_{i} \hat{x}_{i}$ 代入上边不等式的左边，且有 $y_{i}\left(\hat{w}_{k-1} \cdot \hat{x}_{i}\right)=y_{i}\left(w_{k-1} \cdot x_{i}+b_{k-1}\right) \leq 0\quad (***)$ 、 $R=\max _{1 \leq i \leq N}\left\|x_{i}\right\| \quad(* *)$ 和 $\hat{w}_{0}=0$ ，综上可得：
在这里插入图片描述
结合（1）（2）不等式，再结合柯西-布涅柯夫斯基不等式，并代入 $\left\|\hat{w}_{o p t}\right\|=1$ 我们可以得到：
$\eta \gamma \leq \hat{w}_{k} \cdot \hat{w}_{o p t} \leq\left\|\hat{w}_{k}\right\|\left\|\hat{w}_{o p t}\right\|=\left\|\hat{w}_{k}\right\| \leq \sqrt{k} \eta R$
即有 $\sqrt{k} \eta R \geq k \eta \gamma$ 化简可得 $kR^2 \geq k^2\gamma^2$
综上可得： $\leq\left(\frac{R}{\gamma}\right)^{2}$

结论：此定理表明，误分类的次数k是有上届的，经过有限次搜索可以找到将训练数据完全正确分开的分离超平面，换句话说，当训练数据集线性可分时，感知机学习算法原始形式迭代是收敛的。当然，这个解是非常多个的，它们即依赖于初值的选择，也依赖于迭代过程中误分类点的选择顺序，为了得到唯一的超平面，就需要对分离超平面增加约束条件，而这便是我们后面将学习到的支持向量机(SVM)的思想，它的原理是使得这个分离超平面的类间隔间距最大化。不过，当训练集线性不可分时，感知机学习算法是不收敛的，迭代结果会发生震荡。