数据挖掘之支持向量机SVM以及它的两种解法Maximizing the margin of perceptron


从上节课Margin-Based通理出发,在线性可分linear separable的情况下,我们要找到最大的margin,这样子能使得泛化误差的上界尽可能小,支持向量机Support Vector Machine (SVM) 就是找到最大Margin的方法。

Method1: Optimal Solution

如图所示,先定义了一个使得超平面Margin最大的问题场景
请添加图片描述
通过标准化 w ′ ⃗ = w ⃗ τ \vec{w'}=\frac{\vec{w}}{\tau} w =τw w ⃗ ⋅ x ⃗ = τ \vec{w} \cdot \vec{x}= \tau w x =τ 转换为了 w ⃗ ⋅ x ⃗ = 1 \vec{w} \cdot \vec{x}= 1 w x =1的标准形式,同理,通过标准化 w ′ ⃗ = w ⃗ τ \vec{w'}=\frac{\vec{w}}{\tau} w =τw w ⃗ ⋅ x ⃗ = − τ \vec{w} \cdot \vec{x}= -\tau w x =τ 转换为了 w ⃗ ⋅ x ⃗ = − 1 \vec{w} \cdot \vec{x}= -1 w x =1更加有利于后面的公式推导。
请添加图片描述
推导公式 m a r g i n = 1 ∣ w ∣ margin=\frac{1}{|w|} margin=w1如下:请添加图片描述
在已经得到 m a r g i n = 1 ∣ w ∣ margin=\frac{1}{|w|} margin=w1的情况下,为了能够找出最大的margin,其实就是要解决一个二次规划方程quadratic programming, denote w ⃗ ′ = ( w 1 ′ , w 2 ′ ) \vec w'=(w_1',w_2') w =(w1,w2)
m i n i m i z e ∣ w ⃗ ′ ∣ = m i n i m i z e ( w 1 ′ ) 2 + ( w 2 ′ ) 2 s u b j e c t t o ( w 1 ′ ) ∗ p 1 + ( w 2 ′ ) ∗ p 2 ≥ 1 , w h e r e l a b e l ( p ) = 1 ( w 1 ′ ) ∗ p 1 + ( w 2 ′ ) ∗ p 2 ≤ − 1 , w h e r e l a b e l ( p ) = − 1 minimize \quad |\vec w'| \\ = minimize \quad (w_1')^{2}+(w_2')^2 \\ subject \quad to \\ (w_1')*p_1+(w_2')*p_2 \ge 1 , where \quad label(p)=1 \\ (w_1')*p_1+(w_2')*p_2 \le -1 , where \quad label(p)=-1 minimizew =minimize(w1)2+(w2)2subjectto(w1)p1+(w2)p21,wherelabel(p)=1(w1)p1+(w2)p21,wherelabel(p)=1
这样子算出来的 w ⃗ ′ = ( w 1 ′ , w 2 ′ ) \vec w'=(w_1',w_2') w =(w1,w2)是标准化 w ′ ⃗ = w ⃗ τ \vec{w'}=\frac{\vec{w}}{\tau} w =τw 之后的法向量,只是对法向量进行了防缩,并不影响最后找到的分割超平面的斜率情况。

但是解决二次规划方程的时间复杂度过高,尤其是在图中点过于多的情况下,约束方程也有很多,解出答案的效率不高,因此考虑下面的近似解法。

Method2: Approximate Solution

近似解法通过递归的方式尽可能地解出近似于linear separable的最大的margin γ o p t \gamma_{opt} γopt (或者称为 γ ∗ \gamma^* γ)的值。

该方法蕴含着许多证明,需要尽可能地理解其内涵,incremental algorithm的递归解法也需要进行理解。

Margin Perception引入了一个变量 γ g u e s s \gamma_{guess} γguess,并基于此进行调整,首先需要保证正负样本能够分开在plane两侧,方法类似于前面的感知机,不过这里为了保证找到最大边界,如果到plane的距离 < γ g u e s s 2 \lt \frac{\gamma_{guess}}{2} <2γguess也是violation point。不违背Margin Perception的点就是满足三个条件:

  1. if label of p = 1 and w ⃗ ⋅ p ⃗ > 0 \vec{w} \cdot \vec{p} \gt 0 w p >0
  2. if label of p =-1 and w ⃗ ⋅ p ⃗ < 0 \vec{w} \cdot \vec{p} \lt 0 w p <0
  3. ∣ p ⃗ ⋅ w ⃗ ∣ w ⃗ ∣ ∣ ≥ γ g u e s s 2 |\frac{\vec{p} \cdot \vec{w}}{|\vec{w}|}| \ge \frac{\gamma_{guess}}{2} w p w 2γguess

请添加图片描述
γ g u e s s \gamma_{guess} γguess猜测得足够精准,比如 γ g u e s s ≤ γ o p t \gamma_{guess} \le \gamma_{opt} γguessγopt, margin perception就能够在合适的情况下停止并找到符合margin条件的separation plane。需要领会其言外之意,第一层意思是 γ g u e s s ≤ γ o p t \gamma_{guess} \le \gamma_{opt} γguessγopt那么Margin Perception一定会在合适的次数后停止,同时停了也说明 γ g u e s s ≤ γ o p t \gamma_{guess} \le \gamma_{opt} γguessγopt。第二层意思是 γ g u e s s > γ o p t \gamma_{guess} \gt \gamma_{opt} γguess>γopt,该算法就不会自动停止。
请添加图片描述
实际上,我们猜测 γ g u e s s \gamma_{guess} γguess并不能十分准确,我们希望它尽可能大且接近 γ o p t \gamma_{opt} γopt但是又不能太大,这就引入了下面的Incremental algorithm. 先猜一个尽可能大的值,然后在递归的过程中用 1 2 \frac{1}{2} 21不断调整。
在这里插入图片描述
其中有几个需要理解证明的点:

  1. γ g u e s s = R \gamma_{guess} = R γguess=R初始化一定能够保证进行递归,在于一定有 γ o p t ≤ R \gamma_{opt} \le R γoptR γ o p t \gamma_{opt} γopt是点到所有分割平面的最大距离,点到separation plane的距离计算公式 ∣ p ⃗ ⋅ u ⃗ ∣ = ∣ p ∗ u ∗ c o s θ ∣ < ∣ p ∣ ≤ R |\vec{p} \cdot \vec{u}|=|p*u*cos \theta| \lt |p| \le R p u =pucosθ<pR,其中 R R R是点到原点的最远距离。
  2. 每次进行Forced-Termination的时候,对于 γ g u e s s \gamma_{guess} γguess就将它当作 γ o p t \gamma_{opt} γopt,如果不能在 12 R 2 γ o p t 2 \frac{12R^2}{\gamma_{opt}^2} γopt212R2下停止,就说明 γ g u e s s > γ o p t \gamma_{guess}>\gamma_{opt} γguess>γopt,需要除以2继续重复Line 3.
  3. Line 3最终通过self-termination返回的 γ g u e s s \gamma_{guess} γguess不仅小于 γ o p t \gamma_{opt} γopt,而且一定是 > γ o p t 2 > \frac{\gamma_{opt}}{2} >2γopt的也就是 ≥ γ o p t 4 \ge \frac{\gamma_{opt}}{4} 4γopt,因为停止的上一次一定 γ g u e s s > γ o p t \gamma_{guess}>\gamma_{opt} γguess>γopt才能进入下一轮,到最后一轮停止 γ o p t > γ o p t 2 ≥ γ o p t 4 \gamma_{opt}> \frac{\gamma_{opt}}{2}\ge \frac{\gamma_{opt}}{4} γopt>2γopt4γopt

通过以上推论,也可以证明最终Incremental algorithm的执行次数是 O ( R 2 γ o p t 2 ) O(\frac{R^2}{\gamma_{opt}^2}) O(γopt2R2)的。将所有Line3的次数加起来,发现最终只和最后一次最大的的 O ( R 2 γ h 2 ) O(\frac{R^2}{\gamma_{h}^2}) O(γh2R2)有关,前面的数据根据除以2的关系依次等于 R 2 4 γ h 2 \frac{R^2}{4\gamma_{h}^2} 4γh2R2 R 2 4 2 γ h 2 \frac{R^2}{4^2\gamma_{h}^2} 42γh2R2…,又由于 γ h ≥ γ o p t 4 \gamma_{h} \ge \frac{\gamma_{opt}}{4} γh4γopt,因此总次数 O ( R 2 γ h 2 ) O(\frac{R^2}{\gamma_{h}^2}) O(γh2R2)= O ( 4 R 2 γ o p t 2 ) O(4\frac{R^2}{\gamma_{opt}^2}) O(4γopt2R2).
请添加图片描述
下面贴上if γ g u e s s ≤ γ o p t \gamma_{guess}\le\gamma_{opt} γguessγopt,margin perceptron terminates in at most 12 R 2 γ o p t 2 \frac{12R^2}{\gamma_{opt}^2} γopt212R2证明相关的通理
请添加图片描述
请添加图片描述
claim 3 的证明前提是 γ g u e s s ≤ γ o p t \gamma_{guess} \le \gamma_{opt} γguessγopt的假设。
在这里插入图片描述
claim 4直接将 ∣ w ⃗ i ∣ ≥ 2 R 2 γ o p t |\vec{w}_i | \ge \frac{2 R^2}{\gamma_{opt}} w iγopt2R2代入claim 3进行计算。
请添加图片描述
claim 5claim 2claim 4进行结合使用
请添加图片描述
claim 1claim 5结合使用得到最终结论。
请添加图片描述

相关题目

  1. 题目1.简单地算个点到直线的距离的最小值
    请添加图片描述
  2. 题目2,3. Margin Perception的近似解法,关键在于找出violation point,其定义我认为首先要满足当label p = 1 p=1 p=1,正常的点需要分类器算出来的 w ⋅ p > 0 w \cdot p>0 wp>0(这里就是严格取不到 = = =),然后计算distance to the plane w ⋅ p = 0 w \cdot p=0 wp=0时,其距离可以 > = γ g u e s s 2 >= \frac{\gamma_{guess}}{2} >=2γguess,其中 γ g u e s s 2 \frac{\gamma_{guess}}{2} 2γguess的猜想很重要。

请添加图片描述
请添加图片描述
3. 问题4. Margin Perception的最优解法,只需要定义出问题。
请添加图片描述
4. 问题5,反证法解决证明题。
在这里插入图片描述
5. 问题6 Incremental algorithm的推广,将其中的常量系数换成变量。最需要关注的是最后停止的那一轮以及它前面倒数第二轮的数量关系。
请添加图片描述请添加图片描述

  • 3
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

互联网民工蒋大钊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值