数据挖掘之支持向量机SVM以及它的两种解法Maximizing the margin of perceptron

互联网民工蒋大钊

已于 2022-12-14 07:45:24 修改

阅读量871

点赞数 3

分类专栏：人工智能文章标签：数据挖掘

于 2022-10-25 16:23:37 首次发布

本文链接：https://blog.csdn.net/qq_44036439/article/details/127383272

版权

人工智能专栏收录该内容

15 篇文章 13 订阅

订阅专栏

文章目录

Method1: Optimal Solution
Method2: Approximate Solution
相关题目

从上节课Margin-Based通理出发，在线性可分linear separable的情况下，我们要找到最大的margin，这样子能使得泛化误差的上界尽可能小，支持向量机Support Vector Machine (SVM) 就是找到最大Margin的方法。

Method1: Optimal Solution

如图所示，先定义了一个使得超平面Margin最大的问题场景
请添加图片描述
通过标准化 $\vec{w'}=\frac{\vec{w}}{\tau}$ 将 $\vec{w} \cdot \vec{x}= \tau$ 转换为了 $\vec{w} \cdot \vec{x}= 1$ 的标准形式，同理，通过标准化 $\vec{w'}=\frac{\vec{w}}{\tau}$ 将 $\vec{w} \cdot \vec{x}= -\tau$ 转换为了 $\vec{w} \cdot \vec{x}= -1$ 更加有利于后面的公式推导。
请添加图片描述
推导公式 $margin=\frac{1}{|w|}$ 如下：
在已经得到 $margin=\frac{1}{|w|}$ 的情况下，为了能够找出最大的margin，其实就是要解决一个二次规划方程quadratic programming, denote $\vec w'=(w_1',w_2')$ ：
$\quad |\vec w'| \\ = minimize \quad (w_1')^{2}+(w_2')^2 \\ subject \quad to \\ (w_1')*p_1+(w_2')*p_2 \ge 1 , where \quad label(p)=1 \\ (w_1')*p_1+(w_2')*p_2 \le -1 , where \quad label(p)=-1$
这样子算出来的 $\vec w'=(w_1',w_2')$ 是标准化 $\vec{w'}=\frac{\vec{w}}{\tau}$ 之后的法向量，只是对法向量进行了防缩，并不影响最后找到的分割超平面的斜率情况。

但是解决二次规划方程的时间复杂度过高，尤其是在图中点过于多的情况下，约束方程也有很多，解出答案的效率不高，因此考虑下面的近似解法。

Method2: Approximate Solution

近似解法通过递归的方式尽可能地解出近似于linear separable的最大的margin $\gamma_{opt}$ (或者称为 $\gamma^*$ )的值。

该方法蕴含着许多证明，需要尽可能地理解其内涵，incremental algorithm的递归解法也需要进行理解。

Margin Perception引入了一个变量 $\gamma_{guess}$ ，并基于此进行调整，首先需要保证正负样本能够分开在plane两侧，方法类似于前面的感知机，不过这里为了保证找到最大边界，如果到plane的距离 $\lt \frac{\gamma_{guess}}{2}$ 也是violation point。不违背Margin Perception的点就是满足三个条件：

if label of p = 1 and $\vec{w} \cdot \vec{p} \gt 0$
if label of p =-1 and $\vec{w} \cdot \vec{p} \lt 0$
$|\frac{\vec{p} \cdot \vec{w}}{|\vec{w}|}| \ge \frac{\gamma_{guess}}{2}$

请添加图片描述
当 $\gamma_{guess}$ 猜测得足够精准，比如 $\gamma_{guess} \le \gamma_{opt}$ , margin perception就能够在合适的情况下停止并找到符合margin条件的separation plane。需要领会其言外之意，第一层意思是 $\gamma_{guess} \le \gamma_{opt}$ 那么Margin Perception一定会在合适的次数后停止，同时停了也说明 $\gamma_{guess} \le \gamma_{opt}$ 。第二层意思是 $\gamma_{guess} \gt \gamma_{opt}$ ，该算法就不会自动停止。
请添加图片描述
实际上，我们猜测 $\gamma_{guess}$ 并不能十分准确，我们希望它尽可能大且接近 $\gamma_{opt}$ 但是又不能太大，这就引入了下面的Incremental algorithm. 先猜一个尽可能大的值，然后在递归的过程中用 $\frac{1}{2}$ 不断调整。
在这里插入图片描述
其中有几个需要理解证明的点：

$\gamma_{guess} = R$ 初始化一定能够保证进行递归，在于一定有 $\gamma_{opt} \le R$ ， $\gamma_{opt}$ 是点到所有分割平面的最大距离，点到separation plane的距离计算公式 $|\vec{p} \cdot \vec{u}|=|p*u*cos \theta| \lt |p| \le R$ ，其中 $R$ 是点到原点的最远距离。
每次进行Forced-Termination的时候，对于 $\gamma_{guess}$ 就将它当作 $\gamma_{opt}$ ，如果不能在 $\frac{12R^2}{\gamma_{opt}^2}$ 下停止，就说明 $\gamma_{guess}>\gamma_{opt}$ ，需要除以2继续重复Line 3.
Line 3最终通过self-termination返回的 $\gamma_{guess}$ 不仅小于 $\gamma_{opt}$ ，而且一定是 $\frac{\gamma_{opt}}{2}$ 的也就是 $\ge \frac{\gamma_{opt}}{4}$ ，因为停止的上一次一定 $\gamma_{guess}>\gamma_{opt}$ 才能进入下一轮，到最后一轮停止 $\gamma_{opt}> \frac{\gamma_{opt}}{2}\ge \frac{\gamma_{opt}}{4}$ 。

通过以上推论，也可以证明最终Incremental algorithm的执行次数是 $O(\frac{R^2}{\gamma_{opt}^2})$ 的。将所有Line3的次数加起来，发现最终只和最后一次最大的的 $O(\frac{R^2}{\gamma_{h}^2})$ 有关，前面的数据根据除以2的关系依次等于 $\frac{R^2}{4\gamma_{h}^2}$ 、 $\frac{R^2}{4^2\gamma_{h}^2}$ …，又由于 $\gamma_{h} \ge \frac{\gamma_{opt}}{4}$ ,因此总次数 $O(\frac{R^2}{\gamma_{h}^2})$ = $O(4\frac{R^2}{\gamma_{opt}^2})$ .
请添加图片描述
下面贴上if $\gamma_{guess}\le\gamma_{opt}$ ,margin perceptron terminates in at most $\frac{12R^2}{\gamma_{opt}^2}$ 证明相关的通理

claim 3 的证明前提是 $\gamma_{guess} \le \gamma_{opt}$ 的假设。
在这里插入图片描述
claim 4直接将 $|\vec{w}_i | \ge \frac{2 R^2}{\gamma_{opt}}$ 代入claim 3进行计算。
请添加图片描述
claim 5将claim 2和claim 4进行结合使用

将claim 1和claim 5结合使用得到最终结论。