svm系列之最大分隔超平面

最新推荐文章于 2024-06-15 10:04:19 发布

丁磊_Ml

最新推荐文章于 2024-06-15 10:04:19 发布

阅读量8.5k

点赞数 1

分类专栏：机器学习--林轩田机器学习--台大林轩田文章标签： svm

本文链接：https://blog.csdn.net/mosbest/article/details/52017312

版权

机器学习--林轩田同时被 2 个专栏收录

20 篇文章 3 订阅

订阅专栏

机器学习--台大林轩田

20 篇文章 7 订阅

订阅专栏

这里写图片描述
对于对上面4点的分隔，如果是用线性回归的话，三个图形都可能发生。因为PLA是遇到一个输入值，才进行调整，即如果用PLA模型的话，最终的模型与初始状态和输入点的顺序有关。都是我们从直觉上来看，不难发现，其实最右边的分割线由于另外两个分割线的。

这里写图片描述

那为什么最右边的超平面是最好的呢？？？
现在，我们先来一个直观的理解。
在这里我们先假设数据是可分。
以上有4个点，我们要对其分类，然后我们得出来以上三种结果。假设来了第5个点，它其实就是上面4个点中最左边的那一个点‘ * ’，但是，由于测量等影响，有了一些误差。作为我们看来，我们肯定是希望把这个点分为‘ * ’。如果我们用最左边的那个模型，可以发现，哪怕是一点点的误差，数据有一点点的干扰，第5个点就有可能被分为 ‘ 。’.再看最右边的那个模型，发现阴影圆部分都是第5个点可以容忍的误差范围。
```
所以，我们认为，数据点离分隔线的距离越大，模型就可以容忍各大的干扰，对过拟合有更好的健壮性。
又点是不能动的，分割线是可以动的。再加上分割线必须把所有点都正确分隔。所以以上也可以理解为，分割线距离  最近点  的距离越大，模型就可以容忍各大的干扰，超平面对过拟合有更好的健壮性。
所以，我们说，由于最右边的分割线距离   最近点  最远，于是具有最高的健壮性，所以我们选最右边的点。
```

所以，我们是要找到最胖的分隔线，这个最胖的意思，就是分隔线距离最近点的距离。然而前提是，这个分割线要把所有点都正确分隔（默认数据是可分的）。所以最终化成求一个目标函数，但有约束条件。
即
这里写图片描述

为了规范化，我们定义最胖的意思是，最大边界，即fatness==largest_margin

约束条件——分隔线必须把点都正确分类，即 $w^T *x +b>0$ 时，对应该点的 $y_n >0$ ， $w^T * x+b <0$ 时，对应该点的 $y_n <0$ 。即 $y_n(w^T * x +b)>0$ 。这里写图片描述

为了求出上面方程的解，我们要先弄明白什么是distance(x,b,w)?

假设超平面的方程为 $w^T x +b =0$ ,且 $x^1 , x^2$ ，都是超平面上的点，那么都有 $w^T x^1 +b =0$ $w^T x^2 +b =0$
两式相减，即可得， $（w^T * (x^2 - x^1) ）=0$ ，由于 $x^1 , x^2$ 是超平面的任意两点，即二者可以表示超平面任意一条直线，则上式表明W 是超平面的垂线（即法线）。

这里写图片描述

假设平面外有一点 x , 则
$\overrightarrow{h}*\left ( \overrightarrow{x}-\overrightarrow{x'} \right )=\left | h \right |\left | \overrightarrow{x}-\overrightarrow{x'} \right |cos\Theta$
$\left | h \right |=\left | \overrightarrow{x}-\overrightarrow{x'} \right |cos\Theta =\frac{\overrightarrow{h}*\left ( \overrightarrow{x}-\overrightarrow{x'} \right )}{\left | h \right |}$
这里h 就是 w
于是可得这里写图片描述

好了，我们就表示出了distance(x,b,w)的公式了
由于这是任一点到任意平面的距离公式，然而我们要求的是超平面能够把所有的数据点正确分类，则有附加条件
这里写图片描述

其实 $|w^Tx +b |$ 可以表示为 $y_n(w^T x_n +b)$
即最终化为
这里写图片描述

我们再来分析分析，我们最终想要的结果是得到超平面 $w^Tx+b=0$ ,但是我们发现对x，b同等放缩时，得到的超平面是一样的。那么为了能简化公式，我们能否通过对w,b同等放缩（反正最终结果不变），使得其满足条件这里写图片描述。

这样这里写图片描述
就化简会

即可得到
这里写图片描述

由于这里写图片描述比 every $y_n(w^Tx_n +b)>0$ 还要严格，则 $y_n(w^Tx_n +b)>0$ 就可以不要了。
即得到

但是这还是不能求解啊！！约束条件里面有min。现在就想方法把min也去掉。
我们现在用反证法证明 $y_n(w^Tx_n+b)>=1$ 的约束能力与这里写图片描述相同。其实二者是否相同，关键是看 $y_n(w^Tx_n+b)>=1$ 右边能否取到1，如果能，就表明是相同的，如果不能就表明是不同的。
假设二者约束能力不同，即假设 $y_n(w^Tx_n+b)>=1$ 不能取到1.即表示 $y_n(w^Tx_n+b)$ 最小不为1，我们假设是1.126，即 $y_n(w^Tx_n+b)>= 1.126$
我们求出最优的 $w^1,b^1$ ,但是我们还可以对 $w^1,b^1$ 进行放缩成， $(\frac{b^1}{1.126},\frac{w^1}{1.126})$ 。因为即使这样放缩，也可以满足约束条件这里写图片描述。而 $(\frac{b^1}{1.126},\frac{w^1}{1.126})$ 对应的 $\frac{1}{\left \| w \right \|}$ 就大于 $w^1,b^1$ 对应的的 $\frac{1}{\left \| w \right \|}$ 。而我们前面假设 $w^1,b^1$ 对应的的 $\frac{1}{\left \| w \right \|}$ 是最大的。这就矛盾了。所以假设不成立。所以 $y_n(w^Tx_n+b)>=1$ 右边能否取到1。即
$y_n(w^Tx_n+b)>=1$ 的约束能力与这里写图片描述相同。