感知机模型

最新推荐文章于 2020-09-29 18:19:06 发布

godspeedkaka

最新推荐文章于 2020-09-29 18:19:06 发布

阅读量869

点赞数

分类专栏：机器学习文章标签：机器学习统计学习基础感知机分类的线性方法

本文链接：https://blog.csdn.net/u014664226/article/details/52214566

版权

机器学习专栏收录该内容

18 篇文章 2 订阅

订阅专栏

首先看一个例子
这里写图片描述
上图显示 $IR^2$ 中两个类的20个数据点，这些数据可以被一个线性边界分隔开。前面几篇已经讲了分类的回归方法和LDA，对于这个例子，
橙色的是该问题的最小二乘法解，通过对X上的-1/1响应Y回归得到。
可以看到，这个解不能很好地解决这个问题，因为它错分了一个点。事实上，对于这个问题，LDA的解也就是最小二乘法的解（见上一篇）。

上图中两条蓝色的分隔线是以不同随机初始化的感知机学习算法找出的，可以看到，这里两类被正确分隔开。

感知学习算法（perceptron learning algorithm）试图通过极小化误分类点的函数间隔 $y_i(x_i^T\beta+\beta_0)$ 来找出分隔超平面。
如果相应 $y=1$ 被误分类，则 $x^T\beta+\beta_0<0$ ，而对于被误分类的相应 $y=-1$ ，则 $x^T\beta+\beta_0>0$ ，感知机的目标是极小化
$D(\beta,\beta_0)=-\sum_{i\in \mathcal M}y_i(x_i^T\beta+\beta_0)$
其中 $\mathcal M$ 是误分类点的下标集合。这个量是非负的，并正比于误分类点到判定边界的距离。
梯度由
${\partial D(\beta,\beta_0) \over \partial \beta} =-\sum_{i\in \mathcal M}y_ix_i$
${\partial D(\beta,\beta_0) \over \partial \beta_0} =-\sum_{i\in \mathcal M}y_i$
感知机算法使用随机梯度下降法极小化该准则，这意味着不是每次计算所有误分类数据的梯度和，而是每访问一个误分类观测之后就在该方向上前进一个步长。
因此，按照某种次序访问误分类的观测，并使用下式更新参数 $\beta$

$\beta = \beta+\rho y_ix_i$
这里把 $\beta_0$ 对应的x的分量看成固定的1。

这里 $\rho$ 是学习率，在这里我们取1。

可以证明，如果类是线性可分隔的，在有限步后，算法收敛于一个分离超平面，如上图中的两条蓝色分隔线。
具体的，考虑如下问题（统计学习基础4.6）：
假定 $IR^p$ 中有N个点 $x_i$ ，这些点具有类标号 $y_i\in \{-1,1\}$ ，现在证明算法在有限步收敛到分隔超平面。

记分隔超平面为 $\beta^Tx^*=0$ ，其中 $x^*=(x,1)$ ， $\beta=(\beta_1,\beta_0)$ 。设 $z_i=x_i^*/||x_i^*||$ ，
由分隔超平面的性质我们可以得到
$y_i\beta^Tx_i>0$
所以可以得到
$y_i\beta^Tz_i>0$
取 $y_i\beta^Tz_i$ 中的最小值m，根据m的定义我们可以得到
$y_i\beta^Tz_i>=m$
所以 $y_i({1\over m}\beta^T）z_i>=1$
在这里定义
$\beta_{sep}=({1\over m}\beta^T）$ ,所以说存在 $\beta_{opt}$ 对于任意z，我们有
$y_i\beta_{sep}z_i>=1$
给定当前的\beta_{old}，感知机算法之别处z_i被误分类，并产生更新
$\beta_{new}=\beta_{old}+y_iz_i$
两边同时减去\beta_{sep},然后平方得到
$||\beta_{new}-\beta_{sep}||^2=||\beta_{old}-\beta_{sep}||^2+y_i^2||z_i||^2+2y_i(\beta_{old}-\beta_{sep})^Tz_i$
其中， $y_i^2||z_i||^2=1$ ,又因为是误分类点，所以
$2y_i(\beta_{old}-\beta_{sep})^Tz_i=2y_i\beta_{old}^Tz_i-2y_i\beta_{sep}^Tz_i<=(0-1)=-2$