感知机分类器超平面距离损失函数理论推导证明收敛性

最新推荐文章于 2021-08-20 00:06:13 发布

Taneeyo

最新推荐文章于 2021-08-20 00:06:13 发布

阅读量656

点赞数 2

分类专栏：机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/Taneeyo/article/details/110621507

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

感知机分类器理论推导

感知机其实也是一个线性分类模型，但是同逻辑回归不同，主要是损失函数建立的思路同时不从概率角度出发。

（一）假设函数

数据集(样本)：
$X\sqsubseteq\mathbb{R}^N\\f(\boldsymbol x;\omega,b)=\omega_1x_1+\omega_2x_2+...+\omega_Nx_N+b$ 增广形式： $f(\boldsymbol x;\omega)=\omega_0x_0+\omega_1x_1+\omega_2x_2+...+\omega_Nx_N\;\;\;(x_0=1)$
解释一下，f这个函数是典型线性模型函数。其中 $\omega={\lbrack\omega_{1,}\omega_2,...\omega_N\rbrack}^T$ 是N维的权重向量，b是偏置。当解决线性回归问题时，我们直接用 $f(x;\omega)$ 即可预测输出目标。
但是在感知机中，我们使用符号函数 $s i g n ()$ 作为激活函数。对于二分类问题：
$y\in\{-1，1\}$
则我们的假设函数函数定义如下：
$h(x;\omega)=sign(\omega^Tx+b)=\left\{\begin{array}{l}+1\;\;\;\;\;\;if\;\omega^Tx+b>0\\-1\;\;\;\;\;\;if\;\omega^Tx+b<0\end{array}\right.$

线性可分的概念

对于两类线性可分模型中有：
对 $\mathbb{R}^n$ 中任意一个样本都满足
$y^{(i)}\times(\omega^T\boldsymbol x^{\boldsymbol(\mathbf i\boldsymbol)}+b)>0$
即说明是线性可分的。其实蛮好理解的，h(x;w)就是(wTx+b)是我们的预测函数，如果它大于0，我们输出y=1，表示一种分类。如果小于0，说明是另一种分类。那么一个在数据集中的样本 $x^{(i)}$ 对于的 $y^{(i)}$ 要么是1要么是-1，则要是与假设函数乘积大于0，说明是同号的，即是一个分类。
则感知机的最终目标就是要找到一个n维参数 $\omega$ ，使得对于样本中每一个样本都有：
$y^{(i)}\times(\omega^T\boldsymbol x^{\boldsymbol(\mathbf i\boldsymbol)}+b)>0$

（二）损失函数

策略一：
现在我们以出错的角度出发，去建立一个损失函数。
说白了就是用分类分错的个数作为损失函数。损失函数的目的就是损失函数越小对于我们的假设函数模型越好。那对于一个线性分类模型，是不是分得越准越好。那么我们以分类分错的个数作为损失函数从目的上来说是没毛病的。
$loss(\boldsymbol x;\omega)=\sum_{i=1}^NI\{y^{(i)}(\omega^T\boldsymbol x+b)<0\}$
就是说，我们把样本 $x^{(i)}$ 带入假设函数中，算出的值要是和原来数据集对应的分类 $y^{(i)}$ 异号，则说明不是同类。
I（·）是指示函数，如果括号中的表达式成立，则函数值为1，反之为0。配合求和符号能很方便的表示个数。

我们期望的是loss函数越小越好，最好是能求出它的极值情况。但是请注意，按照常规操作应该是要求导，但是这个函数啊，它不能求导。因为它是离散的，不是连续函数这咋导。所以这个方法不行。

策略二：

引入超平面距离：

在n维空间中，超平面表示n-1维的一个空间模型。比如在二维坐标系(平面)中，超平面就是一维的一根直线。在3维空间中，超平面就可以用一个曲面方程来表示。超平面可以有效分类高一个维度的模型。

超平面在分类问题中，也称为决策边界。那在现在感知机模型中，超平面是什么呢。

其实就是两个类别之间的那个分界线。现在回归一下假设函数： $h(x;\omega)=sign(\omega^Tx+b)=\left\{\begin{array}{l}+1\;\;\;\;\;\;if\;\omega^Tx+b>0\\-1\;\;\;\;\;\;if\;\omega^Tx+b<0\end{array}\right.$
那，分类之间的边界不就是 $\omega^Tx+b=0$ 这条直线么。但是在高维就不是直线了，可能是一个二维平面等等。

现在回归主题，我们怎么选择一个更优质，连续可导的函数。这里可以用距离！！如果我分类分错了，那么这个点到决策边界的距离（超平面的距离）我先假设为 $d$ 那么是不是 $d$ 越小越好呢。就是说我分错了，但是越离我的分类界限越近越好。
举个例子，我现在要从牛奶和咖啡中分类一杯咖啡，但是现在拿到了一杯特浓高钙牛奶。这个损失就很大，也就是说它距离我分类平面的距离越远 $d$ 越大，然后拿到了一杯淡淡的牛奶，现在相比之前的特浓牛奶，我的 $d$ 变小了。之后又拿到了一杯含有咖啡因的牛奶， $d$ 更小了。然后拿到了一杯混有一点点咖啡的牛奶，那这个样本非常接近决策边界了，所以 $d$ 无限接近0。

针对于每个分错类的点：
$y^{(i)}\times(\omega^T\boldsymbol x^{\boldsymbol(\mathbf i\boldsymbol)}+b)<0$
它到决策边界（超平面）的距离 $d$ 为：
$d=\frac{\vert\omega^T\boldsymbol x+b\vert}{\parallel\omega\parallel}$
联合分错点的不等式，有：
$d=-\frac{(\omega^T\boldsymbol x+b)y^{(i)}}{\parallel\omega\parallel}$
能去掉绝对值乘一个-y，是因为y不是取1就是-1，而且它与假设函数的乘积是一个负值，在补上一个负号就可以了。

那现在我们求的是一个分错点的，总的来看，这个模型要好。肯定是对于每一个出错的样本点，它距离决策边界越近越好，那就是 $d_1$ 、 $d_2$ … $d_N$ 的总和越小越好。则有：
$d_{sum}=-\frac1{\parallel\omega\parallel}\sum_{i=1}^n(\omega^T\boldsymbol x^{\boldsymbol(\mathbf i\boldsymbol)}+b)y^{(i)}$
注意，这里的n是出错的样本个数。
这个函数是一个连续的可导。它可以作为我们的损失函数:
$loss(x;\omega,b)=-\sum_{i=1}^n(\omega^T\boldsymbol x^{\boldsymbol(\mathbf i\boldsymbol)}+b)y^{(i)}$
分别对 $\omega$ 、 $b$ 求偏微分：
（如果是增广形式，默认 $x_0$ =1， $\omega_0$ =b 参数b可以省略）
$\left\{\begin{array}{l}\frac{\partial loss(x;\omega,b)}{\partial\omega}=-\overset n{\underset{i=1}{\sum\boldsymbol x^{\boldsymbol(\mathbf i\boldsymbol)}}}y^{(i)}\\\\\\\frac{\partial loss(x;\omega,b)}{\partial b}=-\sum_{i=1}^ny^{(i)}\end{array}\right.$

（三）优化算法

1.梯度下降法 GD

梯度下降法详细推导

$\omega_{t+1}=\omega_t-\alpha\frac{\partial loss(x;\omega,b)}{\partial\omega} (\alpha是学习率)$
$\omega_{t+1}=\omega_t+\alpha\overset n{\underset{i=1}{\sum\boldsymbol x^{\boldsymbol(\mathbf i\boldsymbol)}}}y^{(i)}$
同理
$b_{t+1}=b_t+\alpha\sum_{i=1}^ny^{(i)}$
2.随机梯度下降法 SGD
$\omega_{t+1}=\omega_t+\alpha x^{\boldsymbol(\mathbf i\boldsymbol)}y^{(i)}$
$b_{t+1}=b_t+\alpha y^{(i)}$
只用当前点来更新

3.牛顿法
$\omega_{t+1}=\omega_t-\alpha H^{-1}(\omega)\frac{\partial loss(x;\omega,b)}{\partial\omega}$
$H^{-1}$ 是Hessian矩阵的逆

3.拟牛顿法
后续再更新拟牛顿ba
$-$

（四）感知机收敛性证明

1.由于数据集线性可分有：
$y^{(i)}\omega^Tx>0$
$\exists\gamma>0\;\;s.t.\;\gamma=min\{y^{(i)}\omega^T\boldsymbol x\}$
$\gamma$ 是一个很小的正数。设 $\overset\wedge\omega$ 是最终最优的参数。是一个能很准确分类的参数。
$y^{(i)}\overset\wedge\omega^Tx^{(i)}\geq\gamma>0$
2.第k次误分类时：
$\omega_{k}=\omega_{k-1}+\alpha y^{(i)}x^{(i)}$
$\omega_{k}\cdot\overset\wedge\omega=\omega_{k-1}\cdot\overset\wedge\omega+\alpha y^{(i)}x^{(i)}\cdot\overset\wedge\omega$
$\omega_{k}\cdot\overset\wedge\omega\geq\omega_{k-1}\cdot\overset\wedge\omega+\alpha\gamma$
$\omega_{k}\cdot\overset\wedge\omega\geq\omega_{k-2}\cdot\overset\wedge\omega+2\alpha\gamma$
$. . . .$
$\omega_{k}\cdot\overset\wedge\omega\geq k\alpha\gamma$
3.令R为最大的样本值：

$R=\underset{1\leq i\leq N}{max}\parallel x^{(i)}\parallel$
由SGD：
$\parallel\omega_k\parallel^2=\parallel\omega_{k-1}\parallel^2+2\alpha\omega^Tx^{(i)}y^{(i)}+\alpha^2{(x^{(i)})}^2\;\;$
$2\alpha\omega^Tx^{(i)}y^{(i)}$ 这一项是小于0的，因为是误分点，详情看之前的推导。故有：
$\parallel\omega_k\parallel^2\leq\parallel\omega_{k-1}\parallel^2+\alpha^2{(x^{(i)})}^2\;\;$
现在把刚刚 $R$ 的定义拿过来用
$\parallel\omega_k\parallel^2\leq\parallel\omega_{k-1}\parallel^2+\alpha^2R^2$
$\parallel\omega_k\parallel^2\leq\parallel\omega_{k-2}\parallel^2+2\alpha^2R^2$
$. . . .$
$\parallel\omega_k\parallel^2\leq k\alpha^2R^2$

综上所述：

由上面三个结果可以得到：
由2可知：
$k\alpha\gamma\leq\omega_k\overset\wedge\omega$
这里有个很难理解的地方,我们假设 $\overset\wedge\omega=1$ 。为什么可以这样操作呢，我的理解是， $\overset\wedge\omega$ 是最终优化的权重参数，它是会完全正确把所有样本分开的。 $\overset\wedge\omega$ 作为平面的法向量，是可以任意指定模长的，所以在证明之初，就可以假设它的模长=1方便计算。

故得到：
$k\alpha\gamma\leq\omega_k$
由3可得:
$k\alpha\gamma\leq\sqrt k\alpha R$
$k\leq\frac{R^2}{\gamma^2}$
这就说明了，k不是发散的，它总会小于某个值。我们的感知机算法在迭代k次后会收敛。收敛的次数和 $R=\underset{1\leq i\leq N}{max}\parallel x^{(i)}\parallel$ 有关，样本x最大值有关，还和一个参数 $\gamma$ 有关。
反正总之我们是证明了它的收敛性了。

Taneeyo

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
感知机分类器超平面距离损失函数理论推导证明收敛性

感知机分类器理论推导感知机其实也是一个线性分类模型，但是同逻辑回归不同，主要是损失函数建立的思路同时不从概率角度出发。（一）假设函数数据集(样本)：X⊑RNf(x;ω,b)=ω1x1+ω2x2+...+ωNxN+bX\sqsubseteq\mathbb{R}^N\\f(\boldsymbol x;\omega,b)=\omega_1x_1+\omega_2x_2+...+\omega_Nx_N+bX⊑RNf(x;ω,b)=ω1x1+ω2x2+...+ωNxN+b增广形式：f(x;ω)=
复制链接

扫一扫