关于Novikoff定理与感知机算法的收敛性

最新推荐文章于 2024-05-13 12:52:03 发布

微丶念

最新推荐文章于 2024-05-13 12:52:03 发布

阅读量4.2k

点赞数 5

分类专栏：《统计学习方法》速读

本文链接：https://blog.csdn.net/u013745804/article/details/79559178

版权

《统计学习方法》速读专栏收录该内容

3 篇文章 0 订阅

订阅专栏

感知机模型

感知机是一种二类分类的线性模型，它是由误分类驱动的，属于判别模型。说白了，它的实质就是输入空间或特征空间中的一个分离超平面。
《统计学习方法》中的定义：

学习策略

假设训练数据集是线性可分的，感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全分开的分离超平面。
在这里，损失函数选择误分类点到超平面S的总距离：

- 1 | | w | | \sum x i \in M y i (w \cdot x i + b)

$-\frac{1}{||w||}\sum_{x_{i}\in M}y_{i}(w\cdot x_{i}+b)$
其中

M M $M$ 表示误分类点的集合。不考虑

\frac{1}{| | w | |}

$\frac{1}{||w||}$ ，得到最终的感知机损失函数：

- \sum x i \in M y i (w \cdot x i + b)

$-\sum_{x_{i}\in M}y_{i}(w\cdot x_{i}+b)$

学习算法

我们上面选择的损失函数是可导的，因此可以采用一般的梯度下降法对感知机的参数进行学习，这里我们采用随机梯度下降法。首先我们可以推导得到损失函数对于参数 $w$ 与 $b$ 的梯度：

\nabla w L (w, b) = - \sum x i \in M y i x i \nabla b L (w, b) = - \sum x i \in M y i

$\begin{gather*} \nabla_{w}L(w,b)=-\sum_{x_{i}\in M}y_{i}x_{i} \\ \nabla_{b}L(w,b)=-\sum_{x_{i}\in M}y_{i} \end{gather*}$
对于随机梯度下降法而言，我们选取一个误分类点

(xi,yi) ( x i , y i ) $(x_{i},y_{i})$ ，得到

w w $w$ 和

b

$b$ 的更新式：

w \leftarrow w + η y i x i b \leftarrow b + η y i

$\begin{gather*} w\leftarrow w+\eta y_{i}x_{i} \\ b\leftarrow b+\eta y_{i} \end{gather*}$
这种学习算法的几何意义是：当一个实例点被误分类时，即位于分离超平面的错误一侧时，则调整

w w $w$ 和

b

$b$ 的值，使得分离超平面向该误分类点的一侧移动，以减少误分类点与超平面的距离，直至超平面越过该误分类点使其被正确分类。
我们从图像上来对此进行理解：

假设目前的分界线为

x1+x2−2=0 x 1 + x 2 − 2 = 0 $x_{1}+x_{2}-2=0$ ，也即

w1=1，w2=1，b=−2 w 1 = 1 ， w 2 = 1 ， b = − 2 $w_{1}=1，w_{2}=1，b=-2$ ，A点坐标为

(1,−1) ( 1 , − 1 ) $(1, -1)$ 。我们假设对于样本A，其真实类别为1，但是预测结果为-1。在训练时，取

η=1 η = 1 $\eta=1$ ，那么由公式

w←w+ηyixi，b←b+ηyi w ← w + η y i x i ， b ← b + η y i $w\leftarrow w+\eta y_{i}x_{i}，b\leftarrow b+\eta y_{i}$ 可得

w←w+(1,−1) w ← w + ( 1 , − 1 ) $w\leftarrow w +(1, -1)$ ，

b←b+1 b ← b + 1 $b\leftarrow b + 1$ ，计算可得

w1=2，w2=0，b=−1 w 1 = 2 ， w 2 = 0 ， b = − 1 $w_{1}=2，w_{2}=0，b=-1$ ，此时分界线为

2x1−1=0 2 x 1 − 1 = 0 $2x_{1}-1=0$ ，分类正确。图中实线为原始的分类线，虚线为新的分类线，可以看出，分界线是努力朝着A靠拢的。

算法的收敛性

Novikoff定理表明，对于线性可分数据集感知机学习算法原始形式收敛，即经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型。

关于这个定理的证明就不详述了，感兴趣的话可以看一下《统计学习方法》。在这里我们主要对定理中出现的关键性变量

k k $k$ 进行说明：变量

k

$k$ 表示训练数据集上的误分类次数，也即我们总共所需要的迭代次数，在迭代过程中，可能某一个点

xi x i $x_{i}$ 会被误分类多次，那么这些次数都是要计入

k k $k$ 当中的。
我们对(2)中的

R

$R$ 与

γ γ $\gamma$ 进行理解。如果

R R $R$ 越大，也就是

m a x | | {\hat{x}}_{i} | |

$max||\hat x_{i}||$ 越大，此时相当于有一个点距离原点很远，在初始化时，我们常常初始化

w=0，b=0 w = 0 ， b = 0 $w=0，b=0$ ，所以我们要到达正确的分界面所需要的迭代次数也就越多，因此上界越大；如果

γ γ $\gamma$ 越小，即

min{yi(wopt⋅xi+bopt)} m i n { y i ( w o p t ⋅ x i + b o p t ) } $min\{y_{i}(w_{opt}\cdot x_{i}+b_{opt})\}$ 越小，也就是说，对于点

xi，yi x i ， y i ${x_{i}，y_{i}}$ 来说，虽然它被正确分类，但是它离最优分界面

wopt，bopt w o p t ， b o p t ${w_{opt}，b_{opt}}$ 很近，所以很容易就因为在对其它点进行更新时，导致这个点被误分类，因而迭代次数的上界越大。

关于Novikoff定理是不是清晰了一点呢？^-^

微丶念

关注

5
点赞
踩
1

收藏

觉得还不错? 一键收藏
6
评论
关于Novikoff定理与感知机算法的收敛性

感知机模型&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;感知机是一种二类分类的线性模型，它是由误分类驱动的，属于判别模型。说白了，它的实质就是输入空间或特征空间中的一个分离超平面。 &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;《统计学习方法》中的定义：学习策略&nbsp;&n
复制链接

扫一扫

专栏目录