【机器学习】支持向量机SVM原理及推导_为什么支持向量机的决策只由支持向量样本决定-CSDN博客

本文链接：https://blog.csdn.net/u014433413/article/details/78427574

参考：http://blog.csdn.net/ajianyingxiaoqinghan/article/details/72897399 部分图片来自于上面博客。

0 由来

在二分类问题中，我们可以计算数据代入模型后得到的结果，如果这个结果有明显的区别，这就说明模型可以把数据分开。那么，怎么表示“区别”这个词呢，拿最简单的二维问题来讲，“区别”可以是数据点分布在一条直线的两侧，而数据点代入方程后得到的结果符号是不同的，这就达到了分类的目的。而SVM的思想也是这样，目的就是找到一个超平面，将数据点都正确地分在超平面的两侧。那么，又怎么表示这个“都正确”呢？可以这样考虑：就是让那些“很有可能不正确”的数据点彼此分开得明显一点就可以了。对于其它“不那么可能不正确”或者说“一看就很正确”的数据点，就可以不用管了。这也是SVM名称的由来，模型是由那些支持向量（Support Vector）决定的。这也是为什么SVM对outlier不敏感。

1 间隔

遵循上面的逻辑，我们去假设空间里找模型了。但是一下子出来好多个模型都符合我们的要求，怎么办？自然我们想要找到“最优”的那一个模型。那么，怎么衡量这个“最优”呢？根据【超平面】【数据点】【分开】这几个词，我们可以想到最优的模型必然是最大程度地将数据点划分开的模型，不能靠近负样本也不能靠近正样本，要不偏不倚，并且与所有Support Vector的距离尽量大才可以。这就引出了间隔的讨论。

上图中 $x_0$ 是 $x$ 在超平面上的投影， $\omega$ 是超平面的法向量，二者平行可以得到：

x - x 0 = γ ω ∥ ω ∥ (1.1)

$x-x_0=\gamma \frac{\omega}{\| \omega \|} \tag{1.1}$ 两边同乘

ωT $\omega^T$ 并利用

ωTx0+b=0,ωTω=∥ω∥2 $\omega^Tx_0+b=0,\quad \omega^T\omega=\|\omega\|^2$ 得到：

γ = ω T + b ∥ ω ∥ = f ( x ) ∥ ω ∥ (1.2)

$\gamma = \frac{\omega^T+b}{\| \omega \|} = \frac{f(x)}{\| \omega \|} \tag{1.2}$ 当然，上式是带正负号的，如果要得到正值，即点到超平面的距离，乘上数据点的类别就好：

γ ~ = y γ (1.3)

$\tilde{\gamma} = y\gamma \tag{1.3}$

2 最大间隔分类器

上面我们推导出了间隔的表达式，自然的，我们想让数据点离超平面越远越好。

回顾一下，在这样的模型中，我们只考虑那些支持向量就可以了，对于那些显然可以分类成功的数据点，我们顺带着讨论它们就可以。
不妨令那些“有可能分类不成功的点”，即靠近超平面的点，分布在超平面 $\omega^Tx+b=\pm 1$ 上，这里的取值 1 只是为了方便推导，后面我们可以看到，这个值不影响最后的优化过程。
这样，支持向量到达我们要优化的超平面 $\omega^Tx+b=0$ 的距离就是 $\frac{1}{\|\omega\|}$ ，两侧的距离加起来就是 $\frac{2}{\|\omega\|}$ ，同时，我们要求模型对正负样本要做到“不偏不倚”，对于这一条，我们加上限制条件 $y(\omega^T+b) \geqslant 1$ 就好。于是我们得到了不等式约束优化问题：

⎧ ⎩ ⎨ ⎪ ⎪ max 2 ∥ ω ∥ s . t . y i (ω T x i + b) ⩾ 1, i = 1, 2, . . ., m (2.1)

$\left \{ \begin{matrix} \begin{align*} & \max \quad \frac{2}{\Vert \omega \Vert} \\ & s.t. \quad y_i(\omega^T x_i + b) \geqslant 1 ,\quad i=1,2,...,m \end{align*} \end{matrix} \right. \tag{2.1}$ 为了方便推导，上式可以等价地写成：

⎧ ⎩ ⎨ min 1 2 ∥ ω ∥ 2 s . t . y i (ω T x i + b) ⩾ 1, i = 1, 2, . . ., m (2.2)

$\left \{ \begin{matrix} \begin{align*} & \min \quad \frac{1}{2}\| \omega \|^2 \\ & s.t. \quad y_i(\omega^T x_i + b) \geqslant 1 ,\quad i=1,2,...,m \end{align*} \end{matrix} \right. \tag{2.2}$