Seventh week of machine learning on Coursera

最新推荐文章于 2023-07-18 16:56:43 发布

腾原

最新推荐文章于 2023-07-18 16:56:43 发布

阅读量266

点赞数

分类专栏： coursera机器学习笔记文章标签： coursera机器学习笔记

本文链接：https://blog.csdn.net/tengyuan93/article/details/78156651

版权

coursera机器学习笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

如果训练集样本线性可分，那么在样本空间肯定能找到一个划分超平面将正负样本分隔开。
在之前学习的逻辑斯蒂回归(感知机)基于梯度下降的方法来求得这个超平面。但是这种方法求得的超平面是无穷个的（指的是感知机使用梯度下降迭代更新 $\omega和b$ 的过程中，会产生很多超平面方程，具体可参考《统计学习方法》例2.1），那么如何才能找到最优的超平面呢？
由此就引出了我们这节的主题—Support Vector Machine（求间隔最大化的超平面即为最优的超平面）。
样本空间上定义的超平面可以用 $\vec{\omega}^T\vec{x}+b=0$ 表示， $\vec{\omega}=(\omega_1;\omega_2;..;\omega_d)$ 表示超平面的法向量， $b$ 表示离原点的截距项。
可以看出我们想找最优的超平面，就是求得参数 $\vec{\omega}和b的最优值。$
$|\vec{\omega}\cdot\vec{x}+b|$ 可以相对的表示点x距离超平面的距离。
这里写图片描述
如上图所示，超平面 $x_1-x_2+1=0$ ，法向量为 $(1,-1)即确实为(\omega_1,\omega_2)，$ 求点 $(1,0)$ 距离超平面的距离，为 $\sqrt{2}$ ,正好为 $\frac{|\vec{\omega}\cdot\vec{x}+b|}{\parallel\vec{\omega}\parallel}$

那么。我们知道了SVM是寻找最大间隔的超平面，以此作为最优的超平面。通过对参数 $\vec{\omega}和b$ 寻优来找到最大间隔的超平面，那么现在有个问题，我们以什么标准来判断这个间隔最大呢？
在SVM中，存在函数间隔和几何间隔，我们分别来看一下：
首先说一下为什么寻找最大间隔？
因为我们在分类的时候，如果一个点距离我们的超平面越远，那我们是不是就有更大的可能性将它们正确分类？所以这个间隔就是反映这个样本点距离我们超平面的远近程度。

函数间隔

上面说了 $|\vec{\omega}\cdot\vec{x}+b|$ 可以相对的表示点x距离超平面的距离，而且SVM是个二分类问题，对正类标签为 $y=1$ ，对负类标签为 $y=-1$ ，所以函数间隔为：

γ i = y i (ω ⃗ \cdot x i + b) ， i = 0, 1, . . ., m

$\gamma_i=y_i(\vec{\omega}\cdot x_i+b)，i=0,1,...,m$
我们知道

γi $\gamma_i$ 是个整数，表示训练集中每个点距离超平面的距离。
但我们发现，如果将

ω和b $\omega和b$ 的值增大2倍，超平面没有改变，但函数间隔增大2倍。所以需要引入几何间隔

几何间隔

几何间隔 $\gamma_i=\frac{函数间隔}{\parallel \omega \parallel}$ ，这样避免上述情况的发生。
正式公式:

γ i = y i (ω ⃗ ∥ ω ⃗ ∥ \cdot x i + b ∥ ω ⃗ ∥) ， i = 0, 1, . . ., m

$\gamma_i=y_i(\frac{\vec{\omega}}{\parallel \vec{\omega} \parallel}\cdot x_i+\frac{b}{\parallel \vec{\omega}\parallel})，i=0,1,...,m$
可以发现，我在一开始举的例子中，求得点

(1,0) $(1,0)$ 到超平面的距离为

2‾√ $\sqrt 2$ 就是几何间隔。

几何间隔最大化

现在我们已经知道了超平面的表达式，知道了选用哪种间隔标准，现在就轮到如何求解使得几何间隔最大化？
支持向量：距离超平面最近的几个训练样本使得 $|\vec{\omega}^T\vec{x}+b|=1$ 成立，这些样本点称之为支持向量。
注意：这里的 $|\vec{\omega}^T\vec{x}+b|=1$ 是函数间隔，不是几何间隔，不然不一定能找到一个超平面距离最近的正负样本几何间隔恰好为1.
这里写图片描述
如图所示，我们希望 $\gamma=\frac{2}{\parallel \omega \parallel}$ 越大越好。
所以：