深入理解SVM

最新推荐文章于 2024-06-11 18:19:31 发布

ice_martin

最新推荐文章于 2024-06-11 18:19:31 发布

阅读量4.8k

点赞数 32

分类专栏：机器学习文章标签： SVM

本文链接：https://blog.csdn.net/ice_martin/article/details/62219716

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

深入理解SVM

martin

深入理解SVM

SVM核心思想一：最大间隔

对于一个分类算法，想要画出一条决策边界，但是由于决策边界有很多条我们想要通过某种衡量手段来确定一条在此条件下最好的一条决策边界，所以就会有个问题： $\color{red}{什么样的决策边界才是最好的呢？}$ 于是最大边界应运而生。

svm-1.png-12.4kB

让最大间隔作为衡量一条决策边界的好还的原因是，如果一条决策边界有最大间隔，那么这条决策边界就具有很好的 $\color{red}{鲁棒性}$ ，相当于增加了一个缓冲地带，再来一个数据集我可以很从容的包容你进行分类不至于分错类别。

下面讲下最大间隔的概念，如上图，假如存在一条图中的决策边界， $A$ 为边界上的某一点，那么连接原点可以作出通过 $A$ 点的一个向量 $u$ ，找到一个垂直于决策边界的法向量 $w$ ，那么决策边界与虚线的距离 $AB$ 可以用向量 $w$ 与向量 $u$ 的内积来表示，我们知道， $w.u$ 即为向量 $u$ 在 $w$ 上的投影的长度，那么我现在规定一个距离 $C$ 即为间隔，令 $w\cdot u=C$ ，当 $w\cdot u>=C$ 我就很有自信的认为这一点为正类，当 $w\cdot u<=-C$ 我就很有自信的认为这一点为负类。我们来换一种形式来表达这个 $w\cdot u = C$ 式子：

对于训练集中的正类：

w \cdot x + + b > = 1

$w\cdot x_+ + b >= 1$
对于训练集中的负类：

w \cdot x - + b < - 1

$w\cdot x_- + b < -1$

我们先将这里的间隔设为1，当然，可以设置为5，10或者50，100等，但通过左右消除都可以变成1，所以这里就是用1来作为间隔距离。

SVM核心思想二：决策公式

将 $y$ 的取值给出：

y = {+1 ， x 为 正 类 -1 ， x 为 负 类

$y = \left\{{\text{+1，x为正类}\atop\text{-1，x为负类}}\right.$

对于训练集中的正类：

w \cdot x + + b > = 1

$w\cdot x_+ + b >= 1$
对于训练集中的负类：

w \cdot x - + b < - 1

$w\cdot x_- + b < -1$

所以我们可以将上面三个公式合并起来得到一个决策公式，来表示对样本的正确分类：

y i (w \cdot x i + b) - 1 > = 0

$y_i(w\cdot x_i + b) - 1 >=0$

而在决策边界的边界上的，可以理解为在 $\color{red}{路边}$ 上的点符合下面的公式：

y i (w \cdot x i + b) - 1 = 0

$y_i(w\cdot x_i + b) - 1 =0$

SVM核心思想三：目标函数

现在我想要求得这条包含两个间隔的“马路”的宽度，所以我分别选取了在路两边上的点， $OC，OD$ ，那么这两个向量之差就是”路”的宽度。

svm-2.png-13.4kB

写成公式就是，这里的 ${w\over \left\|w\right\|}$ 是对法向量单位化。：

路 宽 = O D - O C = (x + - x -) \cdot w ∥ w ∥

$路宽 = OD - OC = (x_+ - x_-)\cdot {w\over \left\|w\right\|}$

因为这两个点在”路边上”，满足：

y i (w \cdot x i + b) - 1 = 0

$y_i(w\cdot x_i + b) - 1 =0$

所以可以将第一个式子代入到第二个式子：

路 宽 = 1 ∥ w ∥ (w \cdot x + - w \cdot x -) = 1 ∥ w ∥ [(1 - b) + (b + 1)] = 2 ∥ w ∥

$路宽 = {1\over \left\|w\right\|}(w\cdot x_+ - w\cdot x_-)={1\over \left\|w\right\|}[(1-b)+(b+1)]={2\over \left\|w\right\|}$

到上步我们就已经给出了间隔的一般表示，那么我们的目标就是最大化这个间隔，
即

m a x 2 ∥ w ∥

$max \ {2\over \left\|w\right\|}$
等价于

m a x 1 ∥ w ∥

$max \ {1\over \left\|w\right\|}$
等价于

m i n ∥ w ∥

$min \ \left\|w\right\|$
等价于

目 标 优 化 函 数 ： m i n 1 2 ∥ w ∥ 2

$目标优化函数：min \ {1\over 2}{\left\|w\right\|}^2$

因为 ${1\over 2}{\left\|w\right\|}^2$ 对于后续计算比较方便故选用。

SVM核心思想四：优化理论

运用拉格朗日来对上节中的目标函数进行优化，给出拉格朗日函数：

L = 1 2 ∥ w ∥ 2 - \sum i = 1 n α i [y i (w \cdot x i + b) - 1]

$L = {1\over 2}{\left\|w\right\|}^2-\sum_{i=1}^{n}{\alpha_i[y_i(w\cdot x_i+b)-1]}$

接下来对 $w$ 求偏导

\partial L \partial w = ∥ w ∥ - \sum i = 1 n α i y i x i

${\partial L\over \partial w} = {\left\|w\right\|}-\sum_{i=1}^{n}{\alpha_iy_ix_i}$
令

∥ w ∥ - \sum i = 1 n α i y i x i = 0

${\left\|w\right\|}-\sum_{i=1}^{n}{\alpha_iy_ix_i}=0$
解得

∥ w ∥ = \sum i = 1 n α i y i x i

${\left\|w\right\|}=\sum_{i=1}^{n}{\alpha_iy_ix_i}$
接下来对

b $b$ 求偏导

\partial L \partial b = - \sum i = 1 n α i y i

${\partial L\over \partial b} = -\sum_{i=1}^{n}{\alpha_iy_i}$
令

- \sum i = 1 n α i y i = 0

$-\sum_{i=1}^{n}{\alpha_iy_i}=0$
解得

\sum i = 1 n α i y i = 0

$\sum_{i=1}^{n}{\alpha_iy_i}=0$

得出以上两个值 ${\left\|w\right\|}=\sum_{i=1}^{n}{\alpha_iy_ix_i}$ 和 $\sum_{i=1}^{n}{\alpha_iy_i}=0$ ,将这两个值分别带入到拉格朗日函数 $L$ 中，得

L = \sum i = 1 n α i - 1 2 \sum i = 1 n \sum j = 1 n α i α j y i y j x i x j

$L = \sum_{i=1}^{n}\alpha_i-{1\over 2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_i\alpha_jy_iy_jx_ix_j$
这样就转化成了

m i n L = \sum i = 1 n α i - 1 2 \sum i = 1 n \sum j = 1 n α i α j y i y j x i x j

$min \ L = \sum_{i=1}^{n}\alpha_i-{1\over 2}\sum_{i=1}^{n}\sum_{j=1}^{n}\alpha_i\alpha_jy_iy_jx_ix_j$
然后我解得一个最优解

α∗ $\alpha^*$ 之后分别可以求出对应的

w∗ $w^*$ 和

b∗ $b^*$ ，于是就又有了：

w * \cdot x t e s t + b * = 0

$w^*\cdot x_{test} + b^* =0$
上式就变得非常厉害了，它是什么含义呢？原来并不是所有点都是在”路”的两边，只有极少数点也就是支持向量在这个地方，也就是KKT定理中所说的，只有支持向量才符合

α>0 $\alpha>0$ ，其他的点都是

α=0 $\alpha=0$ 。所以，对于一个新测试点我们只要跟这些

数量很少 $\color{red}{数量很少}$ 的支持向量

做一个内积加一个偏置 $\color{red}{做一个内积加一个偏置}$ 就可判断他是不是正类或者负类。于是乎就有了一个对于判断测试集的公式：

f = s i g n (w * \cdot x t e s t + b *)

$f = sign(w^*\cdot x_{test} + b^*)$

SVM核心思想五：损失函数

1.png-153.6kB

我们知道SVM使用的损失函数是hinge loss，即

L i = \sum j \neq y i m a x (0, f (x i, W) j - f (x i, W) y i + Δ)

$L_i = \sum_{j\neq y_i}max(0,f(x_i,W)j-f(x_i,W)_{y_i}+\Delta)$
这个公式意思就是当我有三个类别要分类，比如猫，狗，鸭子，那么我确定知道该类别是小狗了，按着公式的意思即取猫的得分和鸭子得分的和即可，不用把狗的得分算入即

j≠yi $j\neq y_i$ ，而

Δ $\Delta$ 就是我们定的最大间隔，一个安全距离，该公式的意思就是通过调整权重 $W$ 降低那些与目标类别分数相近的其他类别的分数，而对于那些与目标分数大于“间隔”的类别分数不予理睬，因为分数相差很大很容易就可以判别与目标类别不相同。

2.png-127.7kB

SVM核心思想六：核方法

上几节中我们都是拿线性可分的例子来讲解得，那么SVM是否可以对线性不可分的数据集进行划分呢？答案是肯定的。那么这个方法就是利用核函数。通俗的讲，核函数所要做的事就是在某一空间的原始数据集是线性不可分的，如果我把这些数据集转化到另一个空间中说不定就会线性可分。如图：

svm-3.png-18.8kB

转化成数学符号就是： $\phi(x)$ ，但是这个映射 $\phi$ 很难求得所以我们通过一种曲线救国的方式来解决：选取 $\color{red}{原数据集中的另一个点x^*}$ ，通过 $K(x，x^*)=\phi(x)\cdot \phi(x^*)$ 做内积的形式来求解。为什么要这样呢，原因是我如果直接求这个映射函数是很难求的，但是通过计算内积来确定就变得很容易了。