学习July博文总结——支持向量机(SVM)的深入理解（上）

最新推荐文章于 2024-08-15 19:32:28 发布

琦小虾

最新推荐文章于 2024-08-15 19:32:28 发布

阅读量9.7k

点赞数 10

分类专栏：图像处理算法机器学习算法嵌入式系统 Linux 文章标签： svm

本文链接：https://blog.csdn.net/ajianyingxiaoqinghan/article/details/72897399

版权

Linux 同时被 3 个专栏收录

15 篇文章 2 订阅

订阅专栏

嵌入式系统

11 篇文章 0 订阅

订阅专栏

图像处理算法

10 篇文章 8 订阅

订阅专栏

前言

本文是参照CSDN的July大神的热门博文《支持向量机通俗导论（理解SVM的三层境界》）写的。目的是因为July大神文中说，SVM理论的理解，需要一遍一遍的推导公式，直到脑中梳理下来，并可以直接推导相关公式的。本文的写作目的，是在笔者在第一次参考了July大神的博客，并手动推导公式成功后，希望通过Markdown的记录流程，进行第二遍对SVM理论的理解。另外，在笔者第一次研究SVM过程中会存在某些不懂的问题，笔者也会秉着July大神的理念——让没有机器学习理论基础的读者们看懂博文，尽量的将SVM的理论解释清楚。
再次说明，本文的最主要目的是笔者对博主July关于SVM理论介绍的二次学习，如果可以的话，也希望能给笔者的读者一些启发。

本文说明：

本文中涉及大量的向量，有的加了向量符号，有的没有加向量符号，但由于数量过多，且参考资料比较多，所以难以统一，笔者只能尽量的说明清楚。例如，文中的数据点 $x$ 都是向量，核函数中的 $K(x_i, x)$ 与 $K(\overrightarrow{x_i}, \overrightarrow{x})$ 表达的是同一个意思。

参考网址：

《支持向量机通俗导论（理解SVM的三层境界》）
《支持向量机（五）SMO算法》

一、了解SVM

支持向量机(Support Vector Machine, SVM)，通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。

1. 分类标准的起源：Logistic回归

(1) 线性分类器

理解SVM，咱们必须先弄清楚一个概念：线性分类器。
给定一些数据点，它们分别属于两个不同的类，现在要找到一个线性分类器把这些数据分成两类。如果用x表示数据点，用y表示类别（y可以取1或者-1，分别代表两个不同的类），一个线性分类器的学习目标便是要在n维的数据空间中找到一个超平面(hyper plane)，这个超平面的方程可以表示为：

ω T x + b = 0 (1.1.1)

$\omega ^{T}x + b = 0 \qquad (1.1.1)$

$\omega^T$ 中的T表示转置；
$x$ ：数据点
$y$ ：类别（取1或-1）

对于 $y$ 取1或-1，可能有读者表示有疑问。其实1或-1的分类标准起源于logistic回归。

(2) Logistic回归

Logistic回归目的是从特征学习出一个0/1分类模型。这个模型是将特性的线性组合作为自变量，由于自变量的取值范围是负无穷到正无穷。因此，使用logistic函数（或称作sigmoid函数）将自变量映射到(0,1)上，映射后的值被认为是属于y=1的概率。

有假设函数：

h θ (x) = g (θ T x) = 1 1 + e - θ T x (1.1.2)

$h_{\theta}(x) = g(\theta^T x) = \frac {1}{1+e^{-\theta^T x}}\qquad (1.1.2)$

x：n维数据点；
g：Logistic函数；
$\theta ^ T x$ ：数据点 $x$ 的特征；

（关于 $\theta$ 与 $\omega$ 的关系，后面式1.1.5中会给出解释）
而 $g(z) = \frac {1}{1+e^{-z}}$ 的图像如下图1.1所示：

图1.1 Logistic函数曲线

从图中可以看出，Logister函数将范围为负无穷到正无穷的自变量z，映射到了区间(0, 1)。
前面提到的假设函数（式1.1.2），就是类型属于y = 1的概率。

{P (y = 1 | x; θ) = h θ (x) P (y = 0 | x; θ) = 1 - h θ (x) (1.1.3)

$\left\{\begin{matrix} \begin{align*} & P(y=1|x;\theta)=h_\theta(x) \\ & P(y=0|x;\theta)=1-h_\theta(x) \end{align*} \end{matrix} \right. \qquad (1.1.3)$

这样，当我们要判别一个新来的特征属于哪个类时，只需求 $h_\theta(x)$ 即可，若 $h_\theta(x)$ 大于0.5，数据点就是y=1的类；反之，属于y=0类。

注： $h_\theta(x)$ 只与 $\theta^T x$ 有关

$\theta^T x>0$ 时，则 $h_\theta (x)> 0.5$ ，即 $g(z)$ 只是用来映射；
$\theta^T x \gg 0$ 时，则 $h_\theta (x)=1$ ； $\theta^T x \ll 0$ 时，则 $h_\theta (x)=0$ ；

如果我们只从特征 $\theta^T x$ 出发，那么我们所构建的模型的目标，就是让训练数据中， $y=1$ 的特征 $\theta^T \gg 0$ ，且 $y = 0$ 的特征 $\theta^T \ll 0$ 。Logistic回归，就是要学习得到 $\theta$ ，使得正例的特征远大于0，负例的特征远小于0，而且要在全部训练实例上达到这个目标。

(3) Logistic回归变形

为了后面的使用方便，我们这里对Logistic回归进行变形。
首先，将使用的结果标签 $y=0$ 与 $y=1$ 替换为 $y=-1$ 与 $y=1$ 。展开特征 $\theta^T x$ ，如下式：

θ T x = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n (x 0 = 1) (1.1.4)

$\theta ^T x = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + ... + \theta_n x_n (x_0=1) \qquad (1.1.4)$
然后将上式(1.1.4)中的

θ0 $\theta_0$ 替换为

b $b$ ，最后将后面的

θ1x1+θ2x2+...+θnxn $\theta_1 x_1 + \theta_2 x_2 + ... + \theta_n x_n$ 替换为

ωTx $\omega ^ T x$ 。如此，则得到了：

θ T x = ω T x + b (1.1.5)

$\theta ^ T x = \omega ^ T x + b \qquad (1.1.5)$
也就是说，除了分类值y，由

y=0 $y=0$ 变为

y=−1 $y = -1$ 之外，线性分类函数与Logistic回归的形式

hθ(x)=g(θTx)=11+e−θTx $h_{\theta}(x) = g(\theta^T x) = \frac {1}{1+e^{-\theta^T x}}$ 没有区别。
进一步，我们可以将假设函数

hω,b(x)=g(ωTx+b) $h_{\omega, b}(x) = g(\omega ^ T x + b)$ 中的

g(z) $g(z)$ 函数做一个简化，将其简单映射到

y=−1 $y=-1$ 与

y=1 $y=1$ 上。映射关系如下：

g (z) = {1, z \geq 0 - 1, z < 0 (1.1.6)

$g(z) = \left\{\begin{matrix} \begin{align*} & \quad 1, \quad z \geq 0 \\ &-1, \quad z < 0 \end{align*} \end{matrix} \right. \qquad (1.1.6)$

2. 线性分类的一个例子

(1) 线性分类举例

下面举个简单的例子。如下图1.2所示，现在有一个二维平面，平面上有两种不同的数据，分别用圈和叉表示。由于这些数据是线性可分的，所以可以用一条直线将这两类数据分开，这条直线就相当于一个超平面，超平面一边的数据点所对应的y全是-1 ，另一边所对应的y全是1。

图1.2 二维平面线性分类

这个超平面可以用分类函数 $f(x)=\omega^T x + b$ 表示，当 $f(x)$ 等于0的时候，x便是位于超平面上的点，而 $f(x)$ 大于0的点对应 $y=1$ 的数据点， $f(x)$ 小于0的点对应 $y=-1$ 的点，如下图1.3所示：

图1.3 二维平面超平面分类

换言之，在进行分类的时候，遇到一个新的数据点

x $x$ ，将

x $x$ 代入

f(x) $f(x)$ 中。如果

f(x) $f(x)$ 小于0，则将x的类别赋为-1；如果

f(x) $f(x)$ 大于0，则将x的类别赋为1。

注：
有的资料定义特征到结果的输出函数为 $u = \overrightarrow{\omega} \cdot \overrightarrow{x} - b$ （后文也有用到），与这里定义的 $f(x)=\omega^T x + b$ 本质上是一样的。
为什么呢？因为无论是 $u = \overrightarrow{\omega} \cdot \overrightarrow{x} - b$ ，还是 $f(x)=\omega^T x + b$ ，都不影响最终的优化结果。
下文你将看到，当我们转化到优化目标函数 $max \frac{1}{\Vert \omega \Vert}, s.t.,y_i(\omega^T x_i + b, i=1,...,n)$ 的时候，为了求解方便，我们会把 $yf(x)$ 令为1。即 $yf(x)$ 无论是 $y(\omega^T +b)$ ，还是 $y(\omega^T -b)$ ，对我们要优化的目标函数 $max \frac{1}{\Vert \omega \Vert}$ 已经没有影响。

(2) y的取值意义

在July大神的博客中，有人问：SVM函数间隔中， $\hat{\gamma}=y(w^T x+b)=yf(x)$ 中的 $y$ 是只取1和-1 吗？ $y$ 的唯一作用就是确保函数间隔的非负性？
此处总结July博客下面评论中的解释如下：

这个问题将问题搞混了。 $y$ 是个分类标签，二分时，y就取了两个值，而刚好取了-1和1。只是因为用超平面分类时，不同的类中的点的函数值刚好有不同的符号，所以这里就用符号来进行了分类。
具体阐述如下：
1. 对于二类问题，因为 $y$ 只取两个值，这两个是可以任意取的，只要是取两个值就行；
2. 支持向量机去求解二类问题，目标是求一个特征空间的超平面；而超平面分开的两类对应于超平面的函数值的符号是刚好相反的；
3. 基于上述两种考虑，为了使问题足够简单，我们取 $y$ 的值为1和-1；
4. 在取定分类标签y为-1和1之后，一个平面正确分类样本数据，就相当于用这个平面计算 $yf(x)>0$ ；
5. 并且这样一来， $yf(x)$ 也有了明确的几何含义；

总而言之要明白，二类问题的标签 $y$ 是可以取任意两个值的，不管取怎样的值对于相同的样本点，只要分类相同，所有的y的不同取值都是等价的。之所以取某些特殊的值，只是因为这样一来计算会变得方便，理解变得容易。正如July大神的朋友张磊所言，svm中y取1或-1的历史原因是因为感知器最初的定义，实际取值可以任意，总能明确表示输入样本是否被误分，但是用+1、-1可以起码可以是问题描述简单化、式子表示简洁化、几何意义明确化。
举个例子：如果取 $y$ 为1与2（比如原来取-1的现在取1，原来取1的现在取2 ），那么分类正确的判定标准就变成了 $(y-1.5) \cdot f(x)>0$ 。所以取1和-1只是为了计算简单方便，没有实质变化，更非一定必须取一正一负。

接下来的问题是，如何确定这个超平面呢？从直观上而言，这个超平面应该是最适合分开两类数据的直线。而判定“最适合”的标准就是这条直线离直线两边的数据的间隔最大。所以，得寻找有着最大间隔的超平面。

3. 函数间隔与几何间隔

(1) 函数间隔(Functional Margin)

在超平面 $\omega^T x+ b = 0$ 确定的情况下， $| \omega^T x+ b|$ 能够表示点x到超平面的距离远近，而通过观察 $\omega^T x+ b$ 的符号与类型标记 $y$ 符号是否一致，可以判断分类是否正确。
所以，我们可以用 $y \cdot (\omega ^T +b)$ 的正负性来判定或表示分类的正确性。所以我们便在此处引出了函数间隔(Functional Margin)的概念。
定义函数间隔如下所示：

γ^= y (ω T x + b) = y f (x) (1.3.1)

$\hat{\gamma} = y(\omega^T x + b) = yf(x) \qquad (1.3.1)$

式(1.3.1)中参数含义如下：

$x$ ：特征；

$y$ ：结果标签；
$i$ ：表示第i个样本；

而超平面 $(\omega, b)$ 关于训练数据集 $T$ 中所有样本点 $(x_i, y_i)$ 的函数间隔最小值，便成为超平面 $(\omega, b)$ 关于 $T$ 的函数间隔：

$γ^= min γ i^(i = 1, . . . n) (1.3.2)$ $\hat{\gamma} = \min \hat{\gamma_i}(i=1,...n) \qquad (1.3.2)$

(2) 几何间隔(Geometrical Margin)

上面给出了函数间隔的定义，但这样定义的函数间隔有问题。比如成比例的改变 $\omega, b$ （如将他们都增大2倍），则函数间隔 $f(x)$ 的值变成了原来的2倍，但此时超平面却没有改变。所以只有函数间隔远远不够。
事实上，我们可以对法向量 $\omega$ 加些约束条件，从而引出真正定义点到超平面的距离–几何间隔（geometrical margin）的概念。
假定对于一个点 $x$ ，令其垂直投影到超平面上的对应点为 $x_0$ ， $\omega$ 是垂直于超平面的一个向量，为样本 $x$ 到超平面的距离，如下图1.4所示：

图1.4 点 $x$ 在超平面的投影 $x_0$

根据平面几何知识，有：

$x = x 0 + γ ω ∥ ω ∥ (1.3.3)$ $x = x_0 + \gamma \frac{\omega}{\Vert \omega \Vert} \qquad (1.3.3)$
上式(1.3.3)中参数说明如下：

$\Vert \omega \Vert$ ： $\omega$ 的二阶范数，是一个类似于模的表示长度的概念；

例如有向量 $\omega = \{a, b, c \}$ ，则 $\Vert \omega \Vert = \sqrt{a^2 + b^2 + c^2}$ ；
$\frac{\omega}{\Vert \omega \Vert}$ 是单位向量，即一个向量除以它的模；

又由于 $x_0$ 是超平面上的点，满足 $f(x_0)=0$ ，所以代入超平面的方程 $\omega^T x +b = 0$ ，可得到 $\omega^T x_0 +b = 0$ ，即 $\omega^T x_0 = -b$ 。
然后，令式(1.3.3)即 $x = x_0 + \gamma \frac{\omega}{\Vert \omega \Vert}$ 两端同时乘 $\omega^T$ ，再根据 $\omega^T x_0 = -b$ 与 $\omega^T \omega = \Vert \omega \Vert ^2$ ，可以得到：

$γ = ω T + b ∥ ω ∥ = f ( x ) ∥ ω ∥ (1.3.4)$ $\gamma = \frac{\omega^T+b}{\Vert \omega \Vert} = \frac{f(x)}{\Vert \omega \Vert} \qquad (1.3.4)$
为了得到 $\gamma$ 的绝对值，令 $\gamma$ 乘上对应的类别y，即可得出几何间隔（用 $\widetilde{\gamma}$ 表示）的定义：
$γ ˜ = y γ = γ ^ ∥ ω ∥ (1.3.5)$ $\widetilde{\gamma} = y \gamma = \frac{\hat{\gamma}}{\Vert \omega \Vert} \qquad (1.3.5)$
式(1.3.5)中， $\hat{\gamma}$ 是前文中的函数间隔。所以可以看出，几何间隔就是函数间隔除以 $\Vert \omega \Vert$ ，而且函数间隔 $y \cdot (\omega^T x + b) = yf(x)$ 实际上就是 $|f(x)|$ ，只是人为定义的一个间隔度量。几何间隔 $\frac{yf(x)}{\Vert \omega \Vert}$ 才是直观上的点到超平面的距离。

4. 最大间隔分类器(Maximum Margin Classifier)

(1) “间隔”的说明

对一个数据点进行分类，当超平面离数据点的”间隔”越大，分类的确信度(confidence)也越大。所以，为了使得分类的确信度尽量高，需要让所选择的超平面能够最大化该“间隔”值。这个间隔就是下图1.5中的Gap的一半。

图1.5 超平面的间隔

通过由前面的分析可知：函数间隔不适合用来最大化间隔值，因为在超平面固定以后，可以等比例地缩放 $\omega$ 的长度和 $b$ 的值，这样可以使得 $f(x)=\omega^T + b$ 的值任意大，即函数间隔 $\hat{\gamma}$ 可以在超平面保持不变的情况下被取得任意大。
但由于几何间隔 $\widetilde{\gamma}$ 与 $\Vert \omega \Vert$ 做了除运算，所以在缩放 $\omega$ 与 $b$ 的时候，几何间隔 $\widetilde{\gamma}$ 不会改变，它只随着超平面的变化而变动。因此，这是更加合适的一个间隔，即这里要找的最大间隔分类超平面中的“间隔”指的是几何间隔。

(2) 最大间隔分类器的定义

最大间隔分类器（maximum margin classifier）的目标函数可以定义为：

$max γ ˜ (1.4.1)$ $\max \widetilde{\gamma} \qquad (1.4.1)$
同时需要满足一些条件，根据式(1.3.2)中间隔的定义，存在：
$s . t ., y i (ω T x i + b) = γ i^\geq γ^, i = 1, . . ., n (1.4.2)$ $s.t., y_i(\omega^T x_i+ b) = \hat{\gamma_i} \geq \hat{\gamma}, i=1,...,n \qquad (1.4.2)$
上式(1.4.2)中， $s.t.$ 即Subject to的缩写，约束条件的意思。
回顾式(1.3.5)中几何间隔的定义 $\widetilde{\gamma} = y \gamma = \frac{\hat{\gamma}}{\Vert \omega \Vert}$ ，可知如果令函数间隔 $\hat{\gamma} = 1$ ，则有 $\widetilde{\gamma}=\frac{1}{ \Vert \omega \Vert}$ ，且约束条件如上式(1.4.2)。综上，上述目标函数便转化成了：
$⎧ ⎩ ⎨ ⎪ ⎪ max 1 ∥ ω ∥ s . t ., y i (ω T x i + b) = γ i^\geq γ^, i = 1, . . ., n (1.4.3)$ $\left \{ \begin{matrix} \begin{align*} & \max \frac{1}{\Vert \omega \Vert} \\ & s.t., y_i(\omega^T x_i+ b) = \hat{\gamma_i} \geq \hat{\gamma}, i=1,...,n \end{align*} \end{matrix} \right. \qquad (1.4.3)$
上式(1.4.3)，相当于在相应的约束条件 $y_i(\omega ^ T x_i + b) \geq 1, i=1,...,n$ 下，将值 $\frac{1}{\Vert \omega \Vert}$ 最大化，即最大化几何间隔 $\widetilde{\gamma}$ 。

注：为什么令 $\hat{\gamma}=1$ ？
在几何间隔部分说到，若成比例改变 $\omega, b$ ，超平面不会改变，但函数间隔 $\hat{\gamma}$ 会成比例改变，所以可以通过等比例改变 $\omega, b$ 值的方法使函数间隔 $\hat{\gamma}=1$ 。
具体方法：令 $\hat{\gamma}=y(\omega^T x + b)$ 中的 $\omega, b$ 同乘 $\hat{\gamma}=1$ ，得到 $\omega^\prime =\omega \hat{\gamma}, b^\prime = b \hat{\gamma}$ ，再将 $\omega^\prime, b^\prime$ 代入式(1.4.1)中，即得到最大间隔分类器的目标函数。
此处如下图1.6所示：

图1.6 超平面上的支持向量

中间的实线便是寻找到的最优超平面(Optimal Hyper Plane)，其到两条虚线边界的距离相等，这个距离就是几何间隔 $\widetilde{\gamma}$ 。两条虚线间隔边界之间的距离等于 $2\widetilde{\gamma}$ ，而虚线边界上的点，就是支持向量。由于这些支持向量刚好在虚线间隔边界上，且我们之前把函数间隔 $\hat{\gamma}$ 设置为1，所以它们满足 $y(\omega^T x +b)=1$ 。而对于其他所有不是支持向量的点，则显然有 $y(\omega^T x +b) > 1$ 。

至此算是将SVM的第一层讲解完毕，对于那些只关心怎么用SVM的朋友便已足够，不必再更进一层深究其更深的原理。

二、深入SVM

1. 从线性可分到线性不可分

接着考虑上一章中得到的式(1.4.3)中的目标函数：

$⎧ ⎩ ⎨ ⎪ ⎪ max 1 ∥ ω ∥ s . t ., y i (ω T + b) = γ i^\geq γ^, i = 1, . . ., n$ $\left \{ \begin{matrix} \begin{align*} & \max \frac{1}{\Vert \omega \Vert} \\ & s.t., y_i(\omega^T + b) = \hat{\gamma_i} \geq \hat{\gamma}, i=1,...,n \end{align*} \end{matrix} \right.$
由于求 $\max \frac{1}{\Vert \omega \Vert}$ 的最大值，相当于求 $\frac{1}{2} \Vert \omega \Vert ^2$ 的最小值，所以上述目标函数等价于下式：
$⎧ ⎩ ⎨ min 1 2 ∥ ω ∥ 2 s . t ., y i (ω T + b) = γ i^\geq γ^, i = 1, . . ., n (2.1.1)$ $\left \{ \begin{matrix} \begin{align*} & \min \frac{1}{2} {\Vert \omega \Vert} ^ 2 \\ & s.t., y_i(\omega^T + b) = \hat{\gamma_i} \geq \hat{\gamma}, i=1,...,n \end{align*} \end{matrix} \right. \qquad (2.1.1)$

(1) 从原始问题到对偶问题的求解

由于现在的目标函数是二次的，约束条件是线性的，所以它是一个凸二次规划问题。
这个问题可以用现成的QP (Quadratic Programming) 优化包进行求解。一言以蔽之：在一定的约束条件下，目标最优，损失最小。
此外，由于这个问题的特殊结构，还可以通过拉格朗日对偶性（Lagrange Duality）变换到对偶变量 (dual variable) 的优化问题，即通过求解与原问题等价的对偶问题（Dual Problem）得到原始问题的最优解，这就是线性可分条件下支持向量机的对偶算法。
这样做的优点在于：

对偶问题往往更容易求解；
可以自然的引入核函数，进而推广到非线性分类问题。

什么是拉格朗日对偶型呢？简单的讲，通过给每一个约束条件加上一个拉格朗日乘子 $\alpha$ (Lagrange Multiplier)，定义拉格朗日函数如下式(2.1.2)：

$L (ω, b, α) = 1 2 ∥ ω ∥ 2 - \sum i = 1 n α i [y i (ω T x i + b) - 1] (2.1.2)$ $\mathcal{L}(\omega, b, \alpha) = \frac{1}{2} \Vert \omega \Vert ^2 - \sum_{i=1}^{n} \alpha_i[y_i(\omega ^ T x_i + b) - 1] \qquad (2.1.2)$

注：
1. 这里定义为拉格朗日函数的好处，在于通过拉格朗日函数将约束条件融合到目标函数里，从而只用一个函数表达式便能清楚表达出我们的问题。（具体内容可以见大学课堂的概率论教材）；
2. 拉格朗日乘子 $\alpha = \{ \alpha_i \}, i = 1,...,n$ ，且 $\alpha_i > 0, i = 1, ... ,n$ ；

然后令：

$θ (ω) = max α i \geq 0 L (ω, b, α) (2.1.3)$ $\theta (\omega) = \max_{\alpha_i \geq 0} \mathcal{L}(\omega, b, \alpha) \qquad (2.1.3)$
容易验证，当某个约束条件不满足时，例如 $y_i(\omega^T x_i + b) < 1$ ，那么显然有 $\theta(\omega) = +\infty$ （只要让 $\alpha _i = + \infty$ 即可）。
而当所有约束条件都满足时，此时式(2.1.3)多项式的后一项 $\sum_{i=1}^{n} \alpha_i[y_i(\omega ^ T x_i + b) - 1] > 0$ ，此时式(2.1.3)的最优值为 $\theta (\omega) = \frac{1}{2} \Vert \omega \Vert ^2$ ，该值也为最初要最小化的量。
因此，在约束条件得到满足的情况下（包括拉格朗日乘子的约束条件： $\alpha = \{ \alpha_i \}, i = 1,...,n$ ，且 $\alpha_i > 0, i = 1, ... ,n$ ），最小化 $\frac{1}{2} \Vert \omega \Vert ^2$ ，实际上等价于直接最小化(2.1.3)式 $\theta (\omega)$ 。因为如果约束条件没有得到满足， $\theta(\omega)$ 会等于无穷大，自然不会是我们所要求的最小值。
具体写出来，目标函数变成了：
$min ω, b θ (ω) = min ω, b max α i \geq 0 L (ω, b, α) = p * (2.1.4)$ $\min _{\omega, b} \theta (\omega) = \min _{\omega, b} \max _{\alpha_i \geq 0} \mathcal{L}(\omega, b, \alpha) = p^* \qquad (2.1.4)$
这里用 $p^*$ 表示这个问题的最优解，而且与最初的问题等价。如果直接求解，那么一上来便得面对 $\omega$ 和 $b$ 两个参数，而 $\alpha_i$ 又是不等式约束，这个求解过程不好做。所以这里我们把最小和最大的位置交换，变成：
$max α i \geq 0 min ω, b L (ω, b, α) = d * (2.1.5)$ $\max _{\alpha_i \geq 0} \min _{\omega, b} \mathcal{L}(\omega, b, \alpha) = d^* \qquad (2.1.5)$
交换以后的新问题是原始问题的对偶问题，这个新问题的最优值用 $d^*$ 表示，而且这里有 $d^* \leq p^*$ ，在满足某些条件（后文中的Slater条件）的情况下， $d^* = p^*$ 。这时候就可以通过求解对偶问题，间接地求解原始问题。换句话说，之所以从式(2.1.4)中的原始问题 $p^*$ ，转换到式(2.1.5)中的对偶问题 $d^*$ ，一是因为 $d^*$ 是 $p^*$ 的近似解，而是因为转化为对偶问题后更容易求解。

下面，我们可以先求 $\mathcal{L}$ 对 $\omega, b$ 的极小值，然后求 $\mathcal{L}$ 对 $\alpha$ 的极大值。

(2) KKT条件

上一小节中提到，在满足某些条件的情况下， $d^* = p^*$ 。这里某些条件是指Slater条件。
所谓Slater条件，就是指凸优化问题：如果存在一个点 $x$ ，使得所有等式约束都成立，而且所有不等式约束都严格成立（即取 $>, <$ ，不取 $\geq, \leq$ ），则满足Slater条件。
对于此处，Slater条件成立，所以 $d^* \leq p^*$ 可以取等号。

一般情况下，一个最优化数学模型能表示成下列标准形式：

$min f (x) s . t . h j (x) = 0, j = 1, . . ., p g k (x) \leq 0, k = 1, . . ., q x \in X \subset R n (2.1.6)$ $\begin{align*} & \min f(x) \\ & s.t. \ h_j(x) = 0, j = 1,...,p \\ & \qquad g_k(x) \leq 0, k = 1, ..., q \\ & \qquad x\in X \subset \mathcal{R}^n \end{align*} \qquad(2.1.6)$
式(2.1.6)中参数如下：

$f(x)$ ：需要最小化的函数；
$h(x)$ ：等式约束；
$g(x)$ ：不等式约束；
$p, q$ ：等式约束和不等式约束的数量；

同时，我们需要了解以下两点：

凸优化的概念：

$\chi \subset \mathbb{R}^n$ 为一凸集， $f:\chi \subset \mathbb{R}^n$ 为一个凸函数；
凸优化就是找出一点 $x^* \in \chi$ ，使得每一个 $x \in \chi$ 满足 $f(x^*) \leq f(x)$ ，即 $x^*$ 是 $f(x)$ 的极小值点；
KKT条件的意义：

KKT条件是一个非线性规划(Nonlinear Programming)问题能有最优化解法的必要和充分条件；

而KKT条件就是指上面式(2.1.6)中最优化数学模型的标准形式中的最小点 $x^*$ 必须满足下面的条件，这些条件如下式(2.1.7)所示：

$h j (x *) = 0, j = 1, . ., p, g k (x *) \leq 0, k = 1, . . ., q \nabla f (x *) + \sum j = 1 p λ j \nabla h j (x *) + \sum k = 1 q μ k \nabla g k (x *) = 0 λ j \neq 0, μ k \leq 0, μ k g k (x *) = 0 (2.1.7)$ $\begin{align*} & h_j(x^*) = 0, j = 1, .., p, g_k(x^*) \leq 0, k = 1, ..., q \\ & \nabla f(x^*) + \sum_{j=1}^{p} \lambda_j \nabla h_j(x^*) + \sum_{k=1}^{q} \mu_k \nabla g_k(x^*) =0 \\ & \lambda _j \neq 0, \mu _k \leq 0, \mu _k g_k(x^*) = 0 \end{align*} \qquad (2.1.7)$
经过论证，我们这里的问题是满足KKT条件的。原因如下：

满足Slater条件；
$f = \min \frac{1}{2} \Vert \omega \Vert ^2$ 可微， $g = y_i(\omega ^T x_i +b) - 1 \geq 0$ 可微，即在拉格朗日函数 $\mathcal{L}(\omega, b, \alpha)$ 中， $\mathcal{L}$ 对 $\omega, b$ 都可导；

因为我们现在转化为求解第二个问题。也就是说，原始问题（即式(1.4.3)） $\max \frac{1}{\Vert \omega \Vert}$ ，通过满足KKT条件，已经转化成了对偶问题（即式(2.1.5)） $\max _{\alpha_i \geq 0} \min _{\omega, b} \mathcal{L}(\omega, b, \alpha) = d^*$ 。

(3) 对偶问题求解的3个步骤

求解这个对偶学习问题，分为三个步骤：
1. 令 $\mathcal{L}(\omega, b, \alpha)$ 关于 $\omega$ 和 $b$ 最小化；
2. 利用SMO算法求解对偶问题中的拉格朗日乘子，求对 $\alpha$ 的极大；
3. 求参数 $\omega, b$ ；

注：July大神的原文中的步骤与笔者的不同，是因为笔者没有理解按照July大神的步骤。按照原文中的(2)(3)步骤的话，是已经在步骤(2)中求出了 $\alpha$ 的极大（即已经求出了 $\alpha$ ），然后又在步骤(3)中用SMO算法求了一遍 $\alpha$ ，这是笔者不能理解的。所以笔者在此按照自己的理解，把这三个步骤改了一下。如果真有读者看到了这里而且有指点意见的话，笔者感激不尽。

下面按步骤进行说明：

A. 首先固定 $\alpha$ ，令 $\mathcal{L}$ 关于 $\omega, b$ 最小化

对于式(2.1.2)，我们分别对 $\omega, b$ 求偏导数，即令 $\frac{\partial \mathcal{L}}{\partial \omega}, \frac{\partial \mathcal{L}}{\partial b}$ 等于0。

$\partial L \partial ω = 0 \Rightarrow ω = \sum i = 1 n α i y i x i \partial L \partial b = 0 \Rightarrow \sum i = 1 n α i y i = 0 (2.1.8)$ $\begin{align*} & \frac{\partial \mathcal{L}}{\partial \omega} = 0 \Rightarrow \omega = \sum_{i=1}^{n} \alpha_i y_i x_i\\ & \frac{\partial \mathcal{L}}{\partial b} = 0 \Rightarrow \sum_{i=1} ^{n} \alpha_i y_i = 0 \end{align*} \qquad (2.1.8)$

注：关于二范数的求导如下式(2.1.9)所示：

$\partial \partial x ∥ x - α ∥ 2 = x - α ∥ x - α ∥ 2 \partial ∥ x ∥ 2 2 \partial x = \partial ∥ x T x ∥ 2 \partial x = 2 x (2.1.9)$ $\begin{align*} & \frac{\partial}{\partial x} \Vert x - \alpha \Vert _ 2 = \frac{x - \alpha}{\Vert x - \alpha \Vert _ 2} \\ & \frac{\partial \Vert x \Vert _ 2 ^ 2}{\partial x} = \frac{\partial \Vert x^T x \Vert _ 2}{\partial x} = 2x \end{align*} \qquad (2.1.9)$

将上式(2.1.8)代入之前的式(2.1.2)，即 $\mathcal{L} = \frac{1}{2} \Vert \omega \Vert ^2 - \sum_{i=1}^{n} \alpha_i [y_i(\omega^T x_i + b) - 1]$ 中，得到：

$L = 1 2 \sum i, j = 1 n α i α j y i y j x T i x j - \sum i, j = 1 n α i α j y i y j x T i x j - b \sum i = 1 n α i y i + \sum i = 1 n α i = \sum i = 1 n α i - 1 2 \sum i, j = 1 n α i α j y i y j x T i x j (2.1.10)$ $\begin{align*} & \mathcal{L} = \frac{1}{2} \sum_{i,j=1}^{n} \alpha_i \alpha_j y_i y_j x_i^T x_j - \sum_{i,j=1}^{n} \alpha_i \alpha_j y_i y_j x_i^T x_j - b \sum_{i=1}^{n} \alpha_i y_i + \sum_{i=1}^{n} \alpha_i \\ & \quad = \sum_{i=1}^{n} \alpha_i - \frac{1}{2}\sum_{i,j=1}^{n} \alpha_i \alpha_j y_i y_j x_i^T x_j \end{align*} \qquad (2.1.10)$
关于上式(2.1.10)的推导比较复杂，如下式所示：
$L (ω, b, α) = 1 2 ∥ ω ∥ 2 - \sum i = 1 n α i [y i (ω T x i + b) - 1] = 1 2 ω T ω - \sum i = 1 n α i y i ω T x i - b \sum i = 1 n α i y i + \sum i = 1 n α i (2.1.11)$ $\begin{align*} & \mathcal{L}(\omega, b, \alpha) = \frac{1}{2} \Vert \omega \Vert ^2 - \sum_{i=1}^{n} \alpha_i [y_i(\omega^T x_i + b) - 1] \\ & \quad = \frac{1}{2} \omega^T \omega - \sum_{i=1}^n \alpha_i y_i \omega^T x_i - b \sum_{i=1}^n \alpha_i y_i + \sum_{i=1}^n \alpha_i \end{align*} \qquad (2.1.11)$
将式(2.1.8)中的 $\omega = \sum_{i=1}^{n} \alpha_i y_i x_i$ 代入上式(2.1.11)中得：
$L (ω, b, α) = 1 2 ω T \cdot \sum i = 1 n α i x i y i - ω T \sum i = 1 n α i y i x i - b \sum i = 1 n α i y i + \sum i = 1 n α i = - 1 2 ω T \sum i = 1 n α i y i x i - b \sum i = 1 n α i y i + \sum i = 1 n α i = - 1 2 [\sum i = 1 n α i y i x i] T \sum i = 1 n α i y i x i - b \sum i = 1 n α i y i + \sum i = 1 n α i = - 1 2 \sum i = 1 n α i y i (x i) T \cdot \sum i = 1 n α i y i x i - b \sum i = 1 n α i y i + \sum i = 1 n α i = - 1 2 \sum i, j = 1 n α i α j y i y j x T i x j + \sum i = 1 n α i (2.1.12)$ $\begin{align*} & \mathcal{L}(\omega, b, \alpha) = \frac{1}{2} \omega^T \cdot \sum_{i=1}^n \alpha_i x_i y_i - \omega^T \sum_{i=1}^n \alpha_i y_i x_i - b \sum_{i=1}^n \alpha_i y_i + \sum_{i=1}^n \alpha_i \\ & \qquad = - \frac{1}{2} \omega^T \sum_{i=1}^n \alpha_i y_i x_i - b \sum_{i=1}^n \alpha_i y_i + \sum_{i=1}^n \alpha_i \\ & \qquad = - \frac{1}{2} [ \sum_{i=1}^n \alpha_i y_i x_i]^T \sum_{i=1}^n \alpha_i y_i x_i - b \sum_{i=1}^n \alpha_i y_i + \sum_{i=1}^n \alpha_i \\ & \qquad = - \frac{1}{2} \sum_{i=1}^n \alpha_i y_i (x_i)^T \cdot \sum_{i=1}^n \alpha_i y_i x_i - b \sum_{i=1}^n \alpha_i y_i + \sum_{i=1}^n \alpha_i \\ & \qquad = - \frac{1}{2}\sum_{i,j=1}^{n} \alpha_i \alpha_j y_i y_j x_i^T x_j + \sum_{i=1}^{n} \alpha_i \end{align*} \qquad (2.1.12)$
经过式(2.1.11)与(2.1.12)的推导，即可得到式(2.1.10)。

在式(2.1.10)中我们可以看出，由于 $x_i, y_i$ 都是已知量，所以此时的拉格朗日函数只包含了一个变量，那就是 $\alpha_i(i=1, ..., n)$ 。只要求出了 $\alpha_i$ ，就能在后面的步骤中求出 $\omega, b$ ，从而求出分类函数 $f(x)=\omega ^ T + b$ 。

B. 利用SMO算法求解对偶问题中的拉格朗日乘子

求对 $\alpha$ 的极大值，就是关于对偶问题的最优化问题。经过上一个步骤的求取 $\omega, b$ ，得到的拉格朗日函数已经没有了变量 $\omega, b$ ，只存在变量 $\alpha$ 。
通过上面的式(2.1.5), (2.1.6), (2.1.10)，可以得到此时的目标函数：

$max α \sum i = 1 n α i - 1 2 \sum i = 1 n α i α j y i y j x T i x j s . t ., α i \geq 0, i = 1, . . ., n \sum i = 1 n α i y i = 0 (2.1.13)$ $\begin{align*} & \max_{\alpha} \sum_{i=1}^n \alpha_i - \frac{1}{2} \sum_{i=1}^n \alpha_i \alpha_j y_i y_j x_i^T x_j \\ & s.t., \alpha_i \geq 0, i=1, ..., n \\ & \qquad \sum_{i=1}^n \alpha_i y_i = 0 \end{align*} \qquad (2.1.13)$
这时候通过SMO算法可以求解对偶问题中的拉格朗日乘子 $\alpha$ 。
注：关于SMO算法，可以跳到后文，即下一篇博客的第三章第5节。但SMO算法中需要使用到后文讲到的核函数、松弛因子的概念，所以笔者建议还是按照顺序进行学习。

这样求出了极值情况下的 $\alpha_i$ ，就可以求出极值情况下的 $\omega, b$ 。

C. 求参数 $\omega, b$

上面一步求出了拉格朗日乘子 $\alpha$ 。通过式(2.1.8)，可以计算出：

$ω * = \sum i = 1 n α i y i x i$ $\omega^* = \sum_{i=1}^{n} \alpha_i y_i x_i$
这里的 $\omega^*$ 是指极值情况下的 $\omega$ 值，再然后可以求 $b$ 值。由于对于边界上的支持向量有：
$y (ω T x + b) = 1 (2.1.14)$ $y(\omega^T x + b) = 1 \qquad (2.1.14)$
式(2.1.14)的参数 $x$ 数据点是支持向量，参数 $y$ 表示支持向量所属类别（取值1或-1）。
而在 $y = -1, y = 1$ 的类别中，支持向量处于边界点。由超平面的图（即图1.6）可得：
$⎧ ⎩ ⎨ ⎪ ⎪ max y i = - 1 ω T x i + b = - 1 min y i = 1 ω T x i + b = 1 (2.1.15)$ $\left \{ \begin{matrix} \begin{align*} & \max_{y_i = -1} \omega^T x_i +b = -1 \\ & \min_{y_i = 1} \omega^T x_i +b = 1 \end{align*} \end{matrix} \right. \qquad (2.1.15)$
上式(2.1.15)中的两式相加，得到极值情况下的 $b$ 值，记为 $b^*$ ：
$b * = 1 2 [max y i = - 1 ω * T x i + min y i = 1 ω * T x i] (2.1.16)$ $b^* = \frac{1}{2} [\max_{y_i = -1} \omega^{*T} x_i + \min_{y_i = 1} \omega^{*T} x_i] \qquad (2.1.16)$
这样就求出了 $\omega, b, \alpha$ ，便求出了我们在线性情况下的超平面 $f(x)$ 。

(4) 线性不可分的情况

到目前为止，我们的 SVM 还比较弱，只能处理线性的情况，下面我们将引入核函数，进而推广到非线性分类问题。
让我们再来看看上述推导过程中得到的一些有趣的形式。首先就是关于我们的超平面，对于一个数据点 $x$ 分类，实际上是通过把 $x$ 带入到 $f(x) = \omega^T x + b$ 算出结果，然后根据其正负号进行类别划分的。在前面的推导中，我们得到式(2.1.8))：

$ω * = \sum i = 1 n α i y i x i$ $\omega^* = \sum_{i=1}^{n} \alpha_i y_i x_i$
因此我们的分类函数为：
$f (x) = (\sum i = 1 n α i y i x i) T x + b = \sum i = 1 n α i y i ⟨ x i, x ⟩ + b (2.1.17)$ $\begin{align*} & f(x) = (\sum_{i=1}^n \alpha_i y_i x_i)^T x + b \\ & \qquad = \sum_{i=1}^n \alpha_i y_i \langle x_i, x \rangle + b \end{align*} \qquad (2.1.17)$
上式(2.1.17)中，符号 $\langle \cdot , \cdot \rangle$ 表示向量内积。
这里的形式的有趣之处在于，对于新点 $x$ 的预测，只需要计算它与训练数据点的内积即可。这一点是之后使用核函数Kernel进行非线性推广的基本前提，至关重要。
此外，所谓 Supporting Vector 也在这里显示出来——事实上，所有非支持向量所对应的系数 $\alpha$ 都是等于零的，因此对于新点的内积计算，不需要针对所有的训练数据，实际上只要针对少量的支持向量就可以了。

为什么非支持向量对应的 $\alpha$ 等于零呢？直观上来理解的话，就是这些“后方”的点（即在超平面另一侧的点）——正如我们之前分析过的一样，对超平面是没有影响的，由于分类完全有超平面决定，所以这些无关的点并不会参与分类问题的计算，因而也就不会产生任何影响了。
在本节第一小节中，通过拉格朗日乘子得到的目标函数（式(2.1.3)）如下：

$θ (ω) = max α i \geq 0 L (ω, b, α) = max α i \geq 0 1 2 ∥ ω ∥ 2 - \sum i = 1 n α i [y i (ω T x i + b) - 1]$ $\begin{align*} & \theta (\omega) = \max_{\alpha_i \geq 0} \mathcal{L}(\omega, b, \alpha) \\ & \qquad = \max_{\alpha_i \geq 0} \frac{1}{2} \Vert \omega \Vert ^2 - \sum_{i=1}^{n} \alpha_i [y_i(\omega ^ T x_i + b) - 1] \end{align*}$
注意：如果 $x_i$ 是支持向量的话，上式右边的 $[y_i(\omega ^ T x_i + b) - 1]$ 部分是等于0的，因为支持向量的函数间隔等于1；而对于非支持向量来说，函数间隔大于0，所以 $[y_i(\omega ^ T x_i + b) - 1]$ 部分是大于0的。而 $\alpha_i \geq 0$ （见式(2.1.2)的注），所以为了满足最大化， $\alpha_i$ 必须等于0。这也是非支持向量点的局限性。
从第一章第4节到上述所有内容，便得到了一个最大间隔超平面分类器(Maximum Margin Hyper Plane Classifier)，这就是所谓的支持向量机(Support Vector Machine)。但是到目前为止，我们的 SVM 还比较弱，只能处理线性的情况。不过，在得到了对偶dual 形式之后，通过核函数Kernel推广到非线性的情况就变成了一件非常容易的事情了。

2. 核函数Kernel

(1) 特征空间的隐式映射

事实上，大部分时候数据并不是线性可分的，这个时候满足这样条件的超平面就根本不存在。
在上文中，我们已经了解到了SVM处理线性可分的情况，那对于非线性的数据SVM应该怎么处理？对于非线性的情况，SVM 的处理方法是选择一个核函数 $\mathcal{K}(⋅,⋅)$ ，通过将数据映射到高维空间，来解决在原始空间中线性不可分的问题。
具体来说，在线性不可分的情况下，支持向量机首先在低维空间中完成计算，然后通过核函数将输入空间映射到高维特征空间，最终在高维特征空间中构造出最优分离超平面，从而把平面上本身不好分的非线性数据分开。如图2.1所示，一堆数据在二维空间无法划分，从而映射到三维空间里划分：

图2.1 二维空间数据映射到三维空间里并划分

而在我们遇到核函数之前，如果用原始的方法，那么在用线性学习器学习一个非线性关系，需要选择一个非线性特征集，并且将数据写成新的表达形式，这等价于应用一个固定的非线性映射，将数据映射到特征空间，在特征空间中使用线性学习器，因此，考虑的假设集是如下式(2.2.1)这种类型的函数：
$f (x) = \sum i = 1 n ω i ϕ i (x) + b (2.2.1)$ $f(x) = \sum_{i=1}^n \omega_i \phi_i (x) + b \qquad (2.2.1)$
这里的 $\phi : X \rightarrow F$ 是从输入空间到某个特征空间的映射。
这意味着，建立非线性学习器分为两步：

使用一个非线性映射将原始数据 $x$ 变换到一个特征空间F；

在特征空间使用线性学习器分类。

而由前面的内容可以了解到，对偶形式是线性学习器的一个重要性质，这意味着假设可以表达为训练点的线性组合，因此决策规则可以用测试点和训练点的内积来表示：

$f (x) = \sum i = 1 n α i y i ⟨ ϕ (x i), ϕ (x) ⟩ + b (2.2.2)$ $f(x) = \sum_{i=1}^n \alpha_i y_i \langle \phi (x_i) , \phi (x)\rangle + b \qquad (2.2.2)$
上式(2.2.2)中， $\langle \phi (x_i) , \phi (x)\rangle$ 的意义就是在特征空间中直接计算内积。这种像在原始输入点的函数中一样，有可能将上面两个步骤融合到一起建立一个非线性的学习器，这样直接计算的方法，被称为核函数方法。
这里的核，是一个函数 $\mathcal{K}$ ，对于所有的数据点 $x, z \in X$ ，满足：
$K (x, z) = ⟨ ϕ (x), ϕ (z) ⟩ (2.2.3)$ $\mathcal{K} (x, z) = \langle \phi (x) , \phi (z)\rangle \qquad (2.2.3)$

(2) 核函数：如何处理非线性数据

A. 原始数据的映射

来看个核函数的例子。如下图2.2所示的两类数据，分别分布为两个圆圈的形状，这样的数据本身就是线性不可分的，此时我们该如何把这两类数据分开？
注：后面会有July大神的好友pluskid提供的gif动图说明。

图2.2 圆圈状的数据

事实上，上图所述的这个数据集，是用两个半径不同的圆圈加上了少量的噪音生成得到的。所以，一个理想的分界应该是一个“圆圈”，而不是一条线（超平面）。如果用 $x_1, x_2$ 来表示这个二维平面的两个坐标的话，我们知道一条二次曲线（圆圈是二次曲线的一种特殊情况）的方程可以写作这样的形式：
$a 1 x 1 + a 2 x 21 + a 3 x 2 + a 4 x 22 + a 5 x 1 x 2 + a 6 = 0 (2.2.4)$ $a_1 x_1 + a_2 x_1^2 + a_3 x_2 + a_4 x_2^2 + a_5 x_1 x_2 + a_6 = 0 \qquad (2.2.4)$
在上面形式的基础上，如果我们构造另外一个五维的空间，其中五个坐标的值分别为 $Z_1 = x_1, Z_2 = x_1^2, Z_3 = x_2, Z_4 = x_2^2, Z_5 = x_1 x_2$ ，那么显然式(2.2.4)中的方程在新的坐标系下可以写成：
$\sum i = 1 5 a i Z i + a 6 = 0 (2.2.5)$ $\sum_{i=1}^5 a_i Z_i + a_6 = 0 \qquad (2.2.5)$
关于新的坐标Z，这正是一个超平面的方程！解释一下，就是说如果我们做一个映射 $\phi : R^2 \rightarrow R^5$ ，将 $x$ 按照上面的规则映射为 $Z$ ，那么在新的五维空间中，原来的数据将会变成线性可分的，从而使用之前我们推导的线性分类算法就可以进行处理了。这正是Kernel方法处理非线性问题的基本思想。

在进一步描述Kernel的细节之前，不妨再来看看这个例子映射过后的直观例子。虽然我们可能无法把 5 维空间画出来，不过由于July大神这里生成数据的时候就是用了特殊的情形，具体来说，我们这里的超平面实际的方程是这个样子（圆心在 X2 轴上的一个正圆），因此我们只需要把它映射到 $Z_1 = x_1, Z_2 = x_1^2, Z_3 = x_2$ 这样一个三维空间里就可以了。
下图2.3是July大神的好友pluskid提供的gif动图：

图2.3 映射到三维空间的数据动图

上图映射之后的结果，将坐标轴经过适当的旋转，就可以很明显地看出，数据是可以通过一个平面来分开的。

上面的例子可以体现，核函数相当于将原来的分类函数：

$f (x) = \sum i = 1 n α i y i ⟨ x i, x ⟩ + b$ $f(x) = \sum_{i=1}^n \alpha_i y_i \langle x_i, x\rangle + b$
映射成了式(2.2.2)中的：
$f (x) = \sum i = 1 n α i y i ⟨ ϕ (x i), ϕ (x) ⟩ + b$ $f(x) = \sum_{i=1}^n \alpha_i y_i \langle \phi (x_i) , \phi (x)\rangle + b$
而其中的 $\alpha$ 值是可以通过求解由(2.1.13)映射变形来的对偶问题得到：
$max α \sum i = 1 n α i - 1 2 \sum i = 1 n α i α j y i y j ⟨ ϕ (x i), ϕ (x j) ⟩ s . t ., α i \geq 0, i = 1, . . ., n \sum i = 1 n α i y i = 0 (2.2.6)$ $\begin{align*} & \max_{\alpha} \sum_{i=1}^n \alpha_i - \frac{1}{2} \sum_{i=1}^n \alpha_i \alpha_j y_i y_j \langle \phi (x_i) , \phi (x_j)\rangle\\ & s.t., \alpha_i \geq 0, i=1, ..., n \\ & \qquad \sum_{i=1}^n \alpha_i y_i = 0 \end{align*} \qquad (2.2.6)$

B. 维度爆炸问题的解决

看起来问题似乎解决了：拿到了非线性数据，就找一个映射 $\phi (\cdot)$ ，然后一股脑把原来的数据映射到新空间中，再做线性 SVM 即可。

而实际上并没有这么简单，原因在于可能出现维度爆炸的情况。
刚才的方法稍想一下就会发现有问题：在最初的例子里，我们对一个二维空间做映射，选择的新空间是原始空间的所有一阶和二阶的组合，得到了五个维度；如果原始空间是三维，那么我们展开后会得到19维的新空间。这样的话，维度数目是呈爆炸增长的，这给 $\phi (\cdot)$ 的计算带来了非常大的困难，而且如果遇到了无穷维的计算，就根本无从计算了。
这时候仍然需要Kernel方法解决这个问题。

仍然从最开始的简单例子出发：设两个向量 $x_1 = (\eta_1, \eta_2)^T, x_2 = (\xi_1, \xi_2)^T$ ，而 $\phi(\cdot)$ 是前面说到的五维空间映射。映射后的内积为：

$⟨ ϕ (x 1), ϕ (x 2) ⟩ = η 1 ξ 1 + η 21 ξ 21 + η 2 ξ 2 + η 22 ξ 22 + η 1 η 2 ξ 1 ξ 2 (2.2.7)$ $\langle \phi (x_1) , \phi (x_2)\rangle = \eta_1 \xi_1 + \eta_1^2 \xi _1 ^ 2 + \eta_2 \xi_2 + \eta_2^2 \xi_2^2 + \eta_1 \eta_2 \xi_1 \xi_2 \qquad (2.2.7)$
对于上式(2.2.7)的推导，其实就是把 $x_1, x_2$ 的映射 $\phi (x_1) , \phi (x_2)$ 展开，然后作相应的内积运算即可得到。讲解如下：
由上面可知，若有向量 $x= (x_1, x_2)^T$ ，则映射的结果应该是：
$ϕ (x) = x 1 + x 21 + x 2 + x 22 + x 1 x 2$ $\phi(x) = x_1 + x_1^2 + x_2 + x_2^2 + x_1 x_2$
又由于 $x_1 = (\eta_1, \eta_2)^T, x_2 = (\xi_1, \xi_2)^T$ ，则 $x_1, x_2$ 的映射如下：
$ϕ (x 1) = (η 1, η 21, η 2, η 22, η 1 η 2) ϕ (x 2) = (ξ 1, ξ 21, ξ 2, ξ 22, ξ 1 ξ 2)$ $\begin{align*} & \phi(x_1) = (\eta_1, \eta_1^2, \eta_2, \eta_2^2, \eta_1 \eta_2) \\ & \phi(x_2) = (\xi_1, \xi_1^2, \xi_2, \xi_2^2, \xi_1 \xi_2) \end{align*}$
上式作内积运算即可得到式(2.2.7)：
$⟨ ϕ (x 1), ϕ (x 2) ⟩ = η 1 ξ 1 + η 21 ξ 21 + η 2 ξ 2 + η 22 ξ 22 + η 1 η 2 ξ 1 ξ 2$ $\langle \phi (x_1) , \phi (x_2)\rangle = \eta_1 \xi_1 + \eta_1^2 \xi _1 ^ 2 + \eta_2 \xi_2 + \eta_2^2 \xi_2^2 + \eta_1 \eta_2 \xi_1 \xi_2$

另外，如果我们如果计算下式：

$(⟨ x 1, x 2 ⟩ + 1) 2 = 2 η 1 ξ 1 + η 21 ξ 21 + η 2 ξ 2 + η 22 ξ 22 + 2 η 1 η 2 ξ 1 ξ 2 + 1 (2.2.8)$ $(\langle x_1, x_2 \rangle + 1)^2 = 2 \eta_1 \xi_1 + \eta_1^2 \xi _1 ^ 2 + \eta_2 \xi_2 + \eta_2^2 \xi_2^2 + 2 \eta_1 \eta_2 \xi_1 \xi_2 + 1 \qquad (2.2.8)$
式(2.2.8)与式(2.2.7)相比，两者有很多相似的地方。实际上，我们只要把映射的某几个维度线性缩放一下，然后再加上一个常数维度，计算出来的结果和经过映射的两向量内积的结果是相等的。
具体来说，如果对于向量 $x= (a, b)^T$ ，设置新映射如下式：
$φ (x) = (2 \sqrt a, a 2, 2 \sqrt b, b 2, 2 \sqrt a b, 1) T (2.2.9)$ $\varphi (x) = (\sqrt{2} a, a^2, \sqrt{2} b, b^2, \sqrt{2} ab, 1)^T \qquad (2.2.9)$
则式(2.2.8)即 $(\langle x_1, x_2 \rangle + 1)^2$ 的结果和内积 $\langle \varphi (x_1) , \varphi (x_2)\rangle$ 的结果是相等的。然而两者的区别在于什么地方呢？

$(\langle x_1, x_2 \rangle + 1)^2$ ：直接在原来的低维空间进行计算，而不需要显式的写出映射后的结果。
$\langle \varphi (x_1) , \varphi (x_2)\rangle$ ：先映射到高维空间，然后根据内积的公式进行计算；

注：关于上述两个公式的说明

$(\langle x_1, x_2 \rangle + 1)^2$ ：是带内积的完全平方式，可以拆开，然后通过凑一个常数得到；
$\langle \varphi (x_1) , \varphi (x_2)\rangle$ ：也是根据第一个式子拼凑得到的；

回到刚才提到的维度爆炸，在 $\langle \varphi (x_1) , \varphi (x_2)\rangle$ 的方法不能计算的情况下，另一种方法 $(\langle x_1, x_2 \rangle + 1)^2$ 却能从容处理，甚至无穷维度的情况也可以计算。
我们把这里的计算两个向量在隐式映射过后的空间中的内积的函数叫做核函数(Kernel Function)。例如在刚才的例子中，我们的核函数就是：

$K (x 1, x 2) = (⟨ x 1, x 2 ⟩ + 1) 2 (2.2.10)$ $\mathcal{K} (x_1, x_2) = (\langle x_1, x_2 \rangle + 1)^2 \qquad (2.2.10)$

核函数能简化映射空间中的内积运算——碰巧的是，在我们的SVM里需要计算的地方，数据向量总是以内积的形式出现的。对比刚才我们上面写出来的式(2.2.2)，现在我们的分类函数为：

$\sum i = 1 n α i y i K (x i, x) + b (2.2.11)$ $\sum_{i=1}^n \alpha_i y_i \mathcal{K} (x_i, x) + b \qquad (2.2.11)$
这时候，前面式(2.2.6)也可以变形为：
$max α \sum i = 1 n α i - 1 2 \sum i = 1 n α i α j y i y j K (x i, x j) s . t ., α i \geq 0, i = 1, . . ., n \sum i = 1 n α i y i = 0 (2.2.12)$ $\begin{align*} & \max_{\alpha} \sum_{i=1}^n \alpha_i - \frac{1}{2} \sum_{i=1}^n \alpha_i \alpha_j y_i y_j \mathcal{K} (x_i, x_j) \\ & s.t., \alpha_i \geq 0, i=1, ..., n \\ & \qquad \sum_{i=1}^n \alpha_i y_i = 0 \end{align*} \qquad (2.2.12)$
通过上式(2.2.12)，我们可以由该对偶问题计算得到 $\alpha$ 。这样一来计算的问题就算解决了，避开了直接在高维空间中进行计算，而结果却是等价的！
当然，因为我们这里的例子非常简单，所以我可以手工构造出对应于 $\phi(\cdot)$ 的核函数出来，如果对于任意一个映射，想要构造出对应的核函数就很困难了。下面我们介绍几个常用的核函数。

(3) 几个常用核函数

通常人们会从一些常用的核函数中选择（根据问题和数据的不同，选择不同的参数，实际上就是得到了不同的核函数）。

A. 多项式核

多项式核形式如下：

$K (x 1, x 2) = (⟨ x 1, x 2 ⟩ + R) d (2.2.13)$ $\mathcal{K} (x_1, x_2) = (\langle x_1, x_2 \rangle + R)^d \qquad (2.2.13)$
显然刚才我们举的例子是这里多项式核的一个特例(R = 1, d = 2)。

B. 高斯核

高斯核形式如下：

$K (x 1, x 2) = exp (- ∥ x 1 - x 2 ∥ 2 2 σ 2) (2.2.14)$ $\mathcal{K} (x_1, x_2) = \exp (- \frac{\Vert x_1 - x_2 \Vert^2} {2 \sigma^2}) \qquad (2.2.14)$
这个核就是最开始提到过的，会将原始空间映射为无穷维空间的那个家伙。
不过，如果 $\sigma$ 选得很大的话，高次特征上的权重实际上衰减得非常快，所以实际上（数值上近似一下）相当于一个低维的子空间；反过来，如果 $\sigma$ 选得很小，则可以将任意的数据映射为线性可分，当然这并不一定是好事，因为随之而来的可能是非常严重的过拟合问题。
不过总的来说，通过调控参数 $\sigma$ ，高斯核实际上具有相当高的灵活性，也是使用最广泛的核函数之一。下图2.4所示的例子便是把低维线性不可分的数据通过高斯核函数映射到了高维空间：

图2.4 高斯核将低维不可分数据映射到高维空间

C. 线性核

线性核形式如下：

$K (x 1, x 2) = ⟨ x 1, x 2 ⟩ (2.2.14)$ $\mathcal{K} (x_1, x_2) = \langle x_1, x_2 \rangle \qquad (2.2.14)$
这个核实际上就是原始空间中的内积，它存在的主要目的是使得“映射后空间中的问题”和“映射前空间中的问题”两者在形式上统一起来了。这里的意思是说，咱们写代码或写公式的时候，只要写个模板或通用表达式，然后再代入不同的核就可以了。这样便不用再分别写一个线性的，和一个非线性的，在形式上统一了起来。

(4) 核函数的本质

上面说了这么多，还是要在这里概括一下核函数到底是什么东西。基本上就是三点：

实际中，我们会经常遇到线性不可分的样例，此时，我们的常用做法是把样例特征映射到高维空间中去（如上文的图2.2与图2.3，映射到高维空间后，相关特征便被分开了，也就达到了分类的目的）；
但进一步，如果凡是遇到线性不可分的样例，一律映射到高维空间，那么这个维度大小是会高到可怕的（即维度爆炸，如前文说的19维甚至无穷维的例子）；
此时，核函数就隆重登场了，核函数的价值在于它虽然也是将特征进行从低维到高维的转换，但核函数绝就绝在它事先在低维上进行计算，而将实质上的分类效果表现在了高维上，也就如上文所说的避免了直接在高维空间中的复杂计算。

最后引用一个例程，举例说明一下核函数解决非线性问题的直观效果：
假设现在你是一个农场主，圈养了一批羊群，但为预防狼群袭击羊群，你需要搭建一个篱笆来把羊群围起来。但是篱笆应该建在哪里呢？你很可能需要依据牛群和狼群的位置建立一个分类器，比较下图这几种不同的分类器，我们可以看到SVM完成了一个很完美的解决方案。

图2.5 SVM, Logistic回归，决策树的分类效果对比

这个例子从侧面简单说明了SVM使用非线性分类器的优势，而逻辑模式以及决策树模式都是使用了直线方法。

3. 松弛变量

在本文第一节最开始讨论支持向量机的时候，我们就假定，数据是线性可分的，亦即我们可以找到一个可行的超平面将数据完全分开。后来为了处理非线性数据，在本章第2节使用Kernel方法对原来的线性 SVM 进行了推广，使得非线性的情况也能处理。虽然通过映射 $\phi(\cdot)$ 将原始数据映射到高维空间之后，能够线性分隔的概率大大增加，但是对于某些情况还是很难处理。
例如可能并不是因为数据本身是非线性结构的，而只是因为数据有噪音。对于这种偏离正常位置很远的数据点，我们称之为outlier，在我们原来的 SVM 模型里，outlier 的存在有可能造成很大的影响，因为超平面本身就是只有少数几个支持向量组成的，如果这些支持向量里又存在 outlier 的话，其影响就很大了。比如下图2.6所示：

图2.6 outlier对超平面的影响

用黑圈圈起来的那个蓝点是一个 outlier ，它偏离了自己原本所应该在的那个半空间，如果直接忽略掉它的话，原来的分隔超平面还是挺好的。但是由于这个 outlier 的出现，导致分隔超平面不得不被挤歪了，变成途中黑色虚线所示（这只是一个示意图，并没有严格计算精确坐标），同时函数间隔也相应变小了。当然，更严重的情况是，如果这个 outlier 再往右上移动一些距离的话，我们将无法构造出能将数据分开的超平面来。
为了处理这种情况，SVM 允许数据点在一定程度上偏离一下超平面。例如上图中，黑色实线所对应的距离，就是该 outlier 偏离的距离，如果把它移动回来，就刚好落在原来的蓝色间隔边界上，而不会使得超平面发生变形了。换言之，在有松弛的情况下outline点也属于支持向量SV，同时，对于不同的支持向量，拉格朗日参数的值也不同。
在论文《Large Scale Machine Learning》中阐述了相关内容，如下图2.7所示：

图2.7 有松弛的outlier的处理

以分类平面为界，可以将点分为三类：

远离分类平面的点值为0；
边缘上的点，值在 $[0, \frac{1}{L}]$ 之间；

其中，L为训练数据集个数，即数据集大小；
outline数据和分类平面内部的数据值为1/L；

回到之前的问题，原本的约束条件如式(2.1.1)中：

$y i (ω T x i + b) \geq 1, i = 1, . . ., n$ $y_i(\omega ^ T x_i + b) \geq 1, i=1,...,n$
现在考虑到outlier问题，约束条件便改成：
$y i (ω T x i + b) \geq 1 - ξ i, i = 1, . . ., n (2.3.1)$ $y_i(\omega ^ T x_i + b) \geq 1 - \xi_i, i=1,...,n \qquad (2.3.1)$
其中 $\xi_i \geq 0$ 称为松弛变量(Slack Variable)，指对应数据点 $x_i$ 允许偏离的函数间隔的量。
当然，如果我们允许 $\xi_i$ 任意大的话，那么任意的超平面都是符合条件的了，所以我们仍然需要在(2.1.1)式中原来的目标函数后面加上一项，使得这些 $\xi_i$ 的总和最小。即现在的目标函数变为下式：
$min 1 2 ∥ ω ∥ 2 + C \sum i = 1 n ξ i (2.3.2)$ $\min \frac{1}{2} \Vert \omega \Vert ^ 2 + C \sum_{i=1}^n \xi_i \qquad (2.3.2)$
上式(2.3.2)中，需要在寻找间隔最大的超平面，与保证数据点偏差最小之间进行权衡。而 $C$ 是一个参数，是目标函数中上述两项的权重。如果把目标函数与约束条件完整的写出来，应该如下式所示：
$min 1 2 ∥ ω ∥ 2 + C \sum i = 1 n ξ i s . t ., y i (ω T x i + b) \geq 1 - ξ i, i = 1, . . ., n ξ i \geq 0, i = 1, . . ., n (2.3.3)$ $\begin{align*} & \min \frac{1}{2} \Vert \omega \Vert ^ 2 + C \sum_{i=1}^n \xi_i \\ & s.t., y_i(\omega ^ T x_i + b) \geq 1 - \xi_i, i=1,...,n \\ & \qquad \xi_i \geq 0, i = 1, ..., n \end{align*} \qquad (2.3.3)$
再用本章第1节第(1)小节式(2.1.2)的方法，将约束条件加入到目标函数中，得到新的拉格朗日函数，如下式所示：
$L (ω, b, ξ, α, r) = 1 2 ∥ ω ∥ 2 + C \sum i = 1 n ξ i - \sum i = 1 n α i [y i (ω T x i + b) - 1] - \sum i = 1 n r i ξ i (2.3.4)$ $\mathcal{L}(\omega, b, \xi, \alpha, r) = \frac{1}{2} \Vert \omega \Vert ^2 + C \sum_{i=1}^n \xi_i - \sum_{i=1}^{n} \alpha_i[y_i(\omega ^ T x_i + b) - 1] - \sum_{i=1} ^n r_i \xi_i \qquad (2.3.4)$
其中 $r_i$ 的存在与 $\alpha _i$ 是一样的。 $\alpha_i$ 是第一个限制条件 $y_i(\omega ^ T x_i + b) \geq 1 - \xi_i$ 的拉格朗日乘子， $r_i$ 是第二个限制条件 $\xi_i \geq 0$ 的拉格朗日乘子。

分析方法与前面一样，转换为对偶问题后，我们先让 $\mathcal{L}$ 对 $\omega, b, \xi$ 求偏导并令其为0，得到下式：

$\partial L \partial ω = 0 \Rightarrow ω = \sum i = 1 n α i y i x i \partial L \partial b = 0 \Rightarrow \sum i = 1 n α i y i = 0 \partial L \partial ξ i = 0 \Rightarrow C - α i - r i = 0, i = 1, . . ., n (2.3.5)$ $\begin{align*} & \frac{\partial \mathcal{L}}{\partial \omega} = 0 \Rightarrow \omega = \sum_{i=1}^{n} \alpha_i y_i x_i\\ & \frac{\partial \mathcal{L}}{\partial b} = 0 \Rightarrow \sum_{i=1} ^{n} \alpha_i y_i = 0 \\ & \frac{\partial \mathcal{L}}{\partial \xi_i} = 0 \Rightarrow C - \alpha_i - r_i = 0, i = 1, ..., n \end{align*} \qquad (2.3.5)$
将上式中的 $\omega$ 代入 $\mathcal{L}$ 并化简，得到和原来一样的目标函数（即式(2.1.13)）：
$max α \sum i = 1 n α i - 1 2 \sum i, j = 1 n α i α j y i y j ⟨ x i, x j ⟩$ $\max_{\alpha} \sum_{i=1}^n \alpha_i - \frac{1}{2} \sum_{i,j=1}^n \alpha_i \alpha_j y_i y_j \langle x_i , x_j \rangle$
不过由于我们得到了式(2.3.5)中的限制条件 $C - \alpha_i - r_i = 0$ ，以及 $r_i \geq 0$ ，因此可以得到 $\alpha_i \leq C$ 。因此现在整个对偶问题写作：
$max α \sum i = 1 n α i - 1 2 \sum i, j = 1 n α i α j y i y j ⟨ x i, x j ⟩ s . t ., 0 \leq α i \leq C, i = 1, . . ., n \sum i = 1 n α i y i = 0 (2.3.5)$ $\begin{align*} & \max_{\alpha} \sum_{i=1}^n \alpha_i - \frac{1}{2} \sum_{i,j=1}^n \alpha_i \alpha_j y_i y_j \langle x_i , x_j \rangle \\ & s.t., 0 \leq \alpha_i \leq C, i =1, ..., n \\ & \qquad \sum_{i=1}^n \alpha_i y_i = 0 \end{align*} \qquad (2.3.5)$

把前后的结果对比一下（错误修正：图中的Dual formulation中的Minimize应为maxmize）：

图2.8 原公式与对偶公式的对比

可以对比得到，唯一的区别就是现在对偶变量 $\alpha$ 多了一个上限 $C$ 。而 Kernel 化的非线性形式也是一样的，只要把 $\langle x_i, x_j \rangle$ 换成 $\mathcal{K}(x_i, x_j)$ 即可。
这样一来，一个完整的，可以处理线性和非线性并能容忍噪音和 outliers 的支持向量机终于介绍完毕了。

4. 总结

不准确的说，SVM 它本质上即是一个分类方法。基本可以用如下内容来概括它的要点：

用 $\omega ^ T + b$ 定义分类函数；
求 $\omega, b$ ；
为了寻找最大间隔，引出 $\frac{1}{2} \Vert \omega \Vert ^2$ ；
引入拉格朗日因子，化为对拉格朗日乘子 $\alpha$ 的求解；
求解过程中，处理一系列最优化与凸二次规划的问题；
求解 $\alpha$ 时可以使用快速学习方法SMO；
处理非线性情况时，使用核函数；
核函数在低维计算，等效了高维表现，避免了直接映射到高维计算时可能出现的维度爆炸现象；

理解到这第二层，已经能满足绝大部分人一窥SVM原理的好奇心，然对于那些想在证明层面理解SVM的则还很不够，但进入第三层理解境界之前，建议读者要有比较好的数理基础和逻辑证明能力。毕竟原作者July大神尚且吃了不少苦头，更何况笔者一个机器学习的小渣渣……

后面第三章证明SVM的部分，由于CSDN篇幅所限，所以放在下面一篇博客中。

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

琦小虾

关注关注

10
点赞

踩

35

收藏

觉得还不错? 一键收藏

13
评论

复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

机器学习算法与Python实践之（四）支持向量机（SVM）实现(源码)

wenyusuran的专栏

05-14 1万+

机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍，所以就参考这本书的过程来学习了。在这一节我们主要是对支持向量机进行系统的回顾，以及通过Python来实现。由于内容很多，所以这里分成三篇博文。第一篇讲SVM初

July博客结构之法算法之道所有博文集锦 [2016年1月]

12-24

July博客结构之法算法之道所有博文集锦 [2016年1月]

13 条评论您还未登录，请先登录后发表或查看评论

机器学习之深入理解SVM

热门推荐

HuangQinJian

02-11 2万+

在浏览本篇博客之前，最好先查看一下我写的另一篇文章机器学习之初识SVM，这样可以更好地为了结一下内容做铺垫！

支持向量积(SVM)

最新发布

零度°C的博客

08-15 1477

支持向量机（Support Vector Machine, SVM）是一种监督学习算法，主要用于分类和回归分析。它在解决小样本、非线性以及高维数据的问题上表现出色，被认为是效果最好的通用机器学习算法之一。线性核（Linear Kernel）线性核函数是最简单的核函数，适用于线性可分的数据集。它直接计算原始数据点的内积。KxyxTyKxyxTy多项式核（Polynomial Kernel）多项式核函数适用于需要非线性分割的数据集。它通过提高数据的维度来实现非线性映射。Kxyγ。

深入理解SVM

bigbigecho的博客

12-31 560

martin 深入理解SVM SVM核心思想一最大间隔 SVM核心思想二决策公式 SVM核心思想三目标函数 SVM核心思想四优化理论 SVM核心思想五损失函数 SVM核心思想六核方法 SVM核心思想七SMO SVM核心思想一：最大间隔对于一个分类算法，想要画出一条决策边界，但是由于决策边界有很多条我们想要...

支持向量机总结

weixin_38241876的博客

12-07 260

SVM一种二分类模型，是定义在特征空间上的间隔最大的线性分类器。SVM的学习策略就是间隔最大化。线性可分支持向量机就是将输入空间中的输入映射为特征空间中的特征向量，它的学习是在特征空间中进行的。分类正确的置信度是通过点到分离超平面的距离度量的。解决线性不可分的方法是对每个样本点引入一个松弛变量。用线性分类方法求解非线性分类问题分为两步：首先使用一个变换将原空间中的数据映射到新空间，然后...

算法学习——支持向量机SVM

small_persimmon的博客

10-31 383

SVM现在的公式推导很多，都是现成的，而且写的也很好，我会提供相关资源，这篇博文主要从思想理解的方面做一个简单介绍。 1、SVM 是如何工作的？ 支持向量机的基础概念可以通过一个简单的例子来解释。让我们想象两个类别：红色和蓝色，我们的数据有两个特征：x 和 y。我们想要一个分类器，给定一对（x，y）坐标，输出仅限于红色或蓝色。我们将已标记的训练数据列在下图中： 支持向量机会接受这些...

灰灰深入浅出讲解支持向量机（SVM）

NTUhuihui的博客

12-28 554

*这是灰灰的第一篇博文，主要是为大家了解SVM做一个抛砖引玉的工作，在写作的过程中，借鉴和学习了很多大神的工作，自己再加以学习和整理，形成了下面的这篇文章。在这里先鸣谢 v_JULY_v 博主，他的《支持向量机通俗导论（理解SVM的三层境界）》给了我很大的帮助，可谓是站在巨人的肩膀上。* 话不多说，本次博客的目的是为了让大家初步了解什么是支持向量机。目录如下： 1 什么是支持向量机 2

支持向量机通俗导论（理解SVM的三层境界）Latex版PDF

04-24

July老师课程的Pdf，由于现在微盘处于检查阶段，这里只是方便大家下载。对应July老师博文地址： http://blog.csdn.net/v_july_v/article/details/7624837

原来这就是支持向量机

空字符

06-08 713

跟我一起机器学习系列文章将首发于公众号：月来客栈，欢迎文末扫码关注！在前面一系列的文章中，我们已经学习了多种分类算法模型，对于机器学习算是有了一定的了解。在接下来的几篇文章中，我们将开始逐步介绍《跟我一起机器学习》中的最后一个分类模型——支持向量机。**支持向量机（Support Vector Machine）**可以算得上是机器学习算法中最经典的模型之一。之所以称之为经典是因为其有着近乎完美的数学推导与证明，同时也正是因为这个原因，使得其求解过程有着很高的数学门槛。因此，对于接下来的内容，笔者也仅仅只会

JULY-SVM博客

11-19

感谢JULY，通俗易懂的SVM分析讲解，感谢整理文档的前辈

支持向量机的学习总结

weixin_46027770的博客

08-14 528

学习日记

支持向量机个人总结

wh_0701的博客

08-30 776

支持向量机定义 支持向量机（Support Vector Machine, SVM）是一类按监督学习（supervised learning）方式对数据进行二元分类的广义线性分类器（generalized linear classifier），其决策边界是对学习样本求解的最大边距超平面（maximum-margin hyperplane）。简单来说，SVM就是一种分类器，将数据一分为二分成两部...

【机器学习】支持向量机SVM原理总结

Life in Technicolor

05-14 614

【机器学习】支持向量机SVM总结(1) @(Machine Learning) 支持向量机涉及的知识点多，应用广泛，现在特别总结一下支持向量机SVM。 References：《机器学习》西瓜书_周志华《统计学习方法》李航问题引入这部分西瓜书上面说的比较简单，《统计学习方法》上面更加详细。给定线性可分数据集，分离超平面为：这里，w是平面的法向量，b是截距。 ...

July 博客中的机器学习系列

大数据技术杂谈

05-04 3898

http://blog.csdn.net/v_july_v/article/category/1061301

学习July博文总结——支持向量机(SVM)的深入理解（下）

琦小虾的代码世界

06-12 3060

接上篇博文《学习July博文总结——支持向量机(SVM)的深入理解（上）》；三、证明SVM

july的算法博客地址

lxmaint的专栏

02-27 460

http://blog.csdn.net/v_july_v

July博客第十二章参考学习

kringpin_lin的专栏

07-13 1077

### July博客第十二章参考学习 ##