分类系列之感知器学习算法PLA 和口袋算法Pocket Algorithm

最新推荐文章于 2023-05-30 09:27:42 发布

丁磊_Ml

最新推荐文章于 2023-05-30 09:27:42 发布

阅读量5.5k

点赞数 4

分类专栏：机器学习--林轩田机器学习--台大林轩田文章标签： PLA-和-口袋算法

本文链接：https://blog.csdn.net/MosBest/article/details/52029217

版权

机器学习--林轩田同时被 2 个专栏收录

20 篇文章 3 订阅

订阅专栏

机器学习--台大林轩田

20 篇文章 7 订阅

订阅专栏

我们有一堆数据，默认他们是线性可分的。
定义f为这个数据分割线的最优解，但是我们不知道他的值。
我们仅有一个函数集H，这个函数一般是无穷大的。我们的目的就是从H中找出一条线g来尽可能的接近f。但是，我刚刚说了，H内的函数一般是无穷多的，我们不可能把H中的函数一一比较，得到最好的分割线g吧！！！

不过伟大的科学家就说，我们的目的不就是找出一条线把这些数据都分开吗！！那我随机的初始化一条分割线 $g_0$ ,让他一一和数据点进行比较（数据总该是有限个的吧）, 如果某一个数据点划分对了，那这条线就不动，继续比较下一个点。如果错了，那就调整这条线，让他能把这个点分对。以此下去，直到我们发现所有的点都分隔对了为止。。。

那么问题就来了，我们怎么调整这条分隔线呢？？？
首先要明确，只有当分类出错误的时候，才对分割线进行调整。
假设我们遇到的数据点 $(x_n,y_n)$ 是我们第t次分类错误。那么就有

当 $y_n=+1$ 时，则我们的错误结果为 $w^T x_n= \overrightarrow{w_t}*\overrightarrow{x_n}=||w||* ||x_n||*cos\Theta <0$ ，即 $cos\Theta <0$ 则 $\Theta$ 太大,为了能过纠正错误，决定减小 $\Theta$ ，就让 $\overrightarrow w_{t+1} =\overrightarrow w_{t} +\overrightarrow x$
即
紫色的就是更改后的 $w_{t+1}$

同理
当 $y_n=-1$ 时，则我们的错误结果为 $w^T x_n= \overrightarrow{w_t}*\overrightarrow{x_n}=||w||* ||x_n||*cos\Theta >0$ ，即 $cos\Theta >0$ 则 $\Theta$ 太小,为了能过纠正错误，决定增大 $\Theta$ ，就让 $\overrightarrow w_{t+1} =\overrightarrow w_{t} -\overrightarrow x$
即
紫色的就是更改后的 $w_{t+1}$

综上所述，当分割线遇到点 $(x_n,y_n)$ 时，如果分割正确，那么 $w_t$ 就不变，如果分割错误，那么就令

注意w是分割线 $w^Tx=0$ 的法线，也就是说分割线的方向是与w的方向垂直的。。。
这个想法是挺好的，那么问题是，用这种方法到底行不行得通呢？？？现在，我们就来验证这个算法的正确性！！！
这种方法到底行不行得通，其实就是说这个算法到底能不能找到正确区分所有点的线。即这个算法到底能不能收敛？（收敛就是能停下来，算法只有找到了满足要求的线才停下来，所以说法不同，但意思是一样的）
证明：
首先有两个前提：
前提1：数据本就是可以线性可分的。（如果数据不是线性可分的话，那不管我们怎么找都找不到那条线）
前提2：我们仅仅是遇到分错的点时，才改变 $w_t$ ，遇到分对的点 $w_t$ 不变。

根据前提1，说明最终的线一定存在。
假设 $w_f$ 是我们要的线，则有
当线 $w_{t}^Tx=0$ 遇到 $(x_n,y_n)$ 发生错误时，则更新 $w_{t+1}$ ,即
遂有

则

根据前提2，有
这里写图片描述
又有

则
这里写图片描述
判断w_t， $w_f$ 是否相近，只需他们的 $\Theta$ 尽可能为0

我们初始化 $w_0=0$ ，则可以怎么得，在T次误差矫正后，有
这里写图片描述
所以，最终得到

这里写图片描述
即 $cos\Theta>=\sqrt T .Cconstant$ ,即随着T逐渐增大， $cos\Theta$ 也会逐渐增大，那么 $\Theta$ 会逐渐减小到0，所以 $w_t是越来越接近 w_f$ 又 $cos\Theta<=1$ ，所以 $w_t$ 一定收敛。

这个算法最大的缺点就是假设数据点是线性可分的。问题是，我们并不知道数据到底是不是线性可分的！！如果不是，也就是说最终根本没有上面的 $w_f$ ，即没有一条不犯错误的线，那么以上的推论都是“白搭”！！！

那怎么办？？？有个想法是，我们能不能把找出一条犯错误最少的线呢？？？？即这里写图片描述
其实，从实际意义上，是不能的。这是一个著名的NP hard 问题！！！因为线有无穷多个啊！！！

伟大的科学家又提出一条算法，来解决这个问题——-口袋算法
口袋算法基于贪心的思想。他总是让遇到的最好的线拿在自己的手上。。。
就是我首先手里有一条分割线 $w_t$ ，发现他在数据点 $(x_n,y_n)$ 上面犯了错误，那我们就纠正这个分割线得到 $w_{t+1}$ ,我们然后让 $w_t$ 与 $w_{t+1}$ 遍历所有的数据，看哪条线犯的错误少。如果 $w_{t+1}$ 犯的错误少，那么就让 $w_{t+1}$ 替代 $w_{t}$ ，否则 $w_t$ 不变。
那怎样让算法停下来呢？？——–我们就自己规定迭代的次数
由于口袋算法得到的线越来越好（PLA就不一定了，PLA是最终结果最好，其他情况就说不准了），所以我们就自己规定迭代的次数。
这里写图片描述

最后一个问题，如果数据本就是线性可分，那么我们用 pocket algorithm 和用 PLA，那个更好？？？
答案是PLA更好。先不说PLA可以找到最好的那条线。单从效率上来说，PLA也更好些。最主要的原因是，pocket algorithm 每次比较的时候，都要遍历所有的数据点，且两个算法都要遍历一遍，才会决定那个算法好，而这还是比较一次，如果我们让他迭代500次的，那就麻烦了！！！但是，所有前提是，数据是线性可分的。如果线性不可分，只能用pocket algorithm，因为PLA根本不会停下来（而且PLA的 $w_t$ 也不是每更改一次效果就会比之前的好）！！

总结一下，这篇博客讲了些什么：
1. 先讲解了 PLA算法
2. 然后证明PLA算法在数据是线性可分的情况下的正确性
方法：余弦定理+公式 $w_{t+1}=w_{t}+y_n*x_n$
3. 讨论在线性不可分情况下的口袋算法pocket algorithm
4. 简单的讨论了 PLA和pocket algorithm的优缺点
5. 那么你能否将这些内容复述一遍 -_-

丁磊_Ml

关注

4
点赞
踩
16

收藏

觉得还不错? 一键收藏
2
评论
分类系列之感知器学习算法PLA 和口袋算法Pocket Algorithm

我们有一堆数据，默认他们是线性可分的。定义f为这个数据分割线的最优解，但是我们不知道他的值。我们仅有一个函数集H，这个函数一般是无穷大的。我们的目的就是从H中找出一条线g来尽可能的接近f。但是，我刚刚说了，H内的函数一般是无穷多的，我们不可能把H中的函数一一比较，得到最好的分割线g吧！！！不过伟大的科学家就说，我们的目的不就是找出一条线把这些数据都分开吗！！那我随机的初始化一条分割线 g
复制链接

扫一扫