SVM系列-小白都看得懂的SVM学习笔记

最新推荐文章于 2024-08-02 17:15:32 发布

schenshantou

最新推荐文章于 2024-08-02 17:15:32 发布

阅读量4.2k

点赞数 2

分类专栏： SVM 分类回归文章标签：机器学习 svm

本文链接：https://blog.csdn.net/schenshantou/article/details/59196543

版权

SVM 同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

分类

1 篇文章 0 订阅

订阅专栏

回归

1 篇文章 0 订阅

订阅专栏

之前学SVM的时候是在看Deformable Part Model的论文才去翻看了Bishop的经典书籍，学了个推导。学的时候是小白，只弄懂了SVM推导的过程，但是一些细节是知其然不知其所以然。所以参考了一些博客和书籍，总结一下SVM的一些知识点和经常被忽略的细节。这是自我认知的学习笔记，也希望能帮到一些和我一样的小白

在机器学习领域，无论是分类还是回归，都可以看做是一个用数据去雕刻一个模具的过程。回归模型是给定输入数据x∈ $R^n$ , 输出预测实数值y；而分类模型是给定输入数据x，输出分类预测{+1, -1}。本质上，分类和回归的思路是一样。

通常，我们有两个数据集，training set 和testing set; 我们先用training set的数据去雕刻模具(模型)，再用testing set 数据去检验模型的性能。

training set 通常包含输入x和输出y，告诉你“这样的x我期望得到这样的y”
testing set 也包含多个输入x和输出y，让你“根据这个x预测y的值，并和我的y比较”
通常，training set的数据量要远超过testing set

数据集的选择是影响机器学习性能的一大关键点。好的数据集能保证在训练之后，用新加入的testing数据也可以做出精准预测；而差的数据集即使在给定的testing set能有100%的预测率(无论是分类预测还是回归预测)，也很难应用到开放的测试数据中。关于数据集的质量胖丁我也半知半解，有兴趣的朋友可以自己研究一下。

————————————————万恶的分割线———————————————————-
在这里，我们先写下SVM的几个特性，后面我们会慢慢说明：

SVM的模型只取决于training set中的少数几个点
基本的SVM模型假设所有数据点线性可分，即存在一个线性方程将两个类别的点分隔在两边
SVM算法的一大前提是其代价函数(cost function)是凸函数(convex)：
- 在机器学习领域，凸函数通常是保证我们能得出全局最优解的前提。
- 对于一个函数 $f(x)$ ，我们可以这么求证它是凸函数：如果 $\forall x \neq 0$ 我们有 $f(x)\geq0$ ，则可以说 $f(x)$ 的Hessian矩阵(二阶导矩阵)是半正定的，所以f是凸函数
- 在凸函数领域，当原问题不方便求解时，我们可以先求解其对偶问题；在满足一定条件的情况下，其对偶问题的解等同于原问题的解。
核函数是SVM的魅力所在，不同选择的核函数使得SVM的分类面更加变化多端

SVM分类器既是分类模型，也可以看作线性回归模型。以SVM使用最普遍的binary分类来说(即两个类别做分类)，SVM分类器通过寻求最佳分类边缘的方式，将两个类别的点(x向量)用我们的最佳边缘分割开。对于n=2而言，就是寻找一条最完美的直线；如果n>2，则是寻找超平面。我们的任务就是要找到这个最佳边缘，使得

两个类别的点分处于直线/超平面(super plane)两边
直线与最近的点的(Euclidean)距离尽可能大

接下来我们来进行最复杂也是最有趣的部分—-SVM的推导。
首先，我们要定义我们对于模型的假设函数(hypothesis)：
$y(\mathbf{x}) = \mathbf{w}^{T} \phi(\mathbf{x}) + b$
其中， $\mathbf{x},\mathbf{w}\in R^n$ , $b\in R$ 。 $\phi(\mathbf{x})$ 叫做核函数，在这里为了简便，我们假设核函数为 $\phi(\mathbf{x})=\mathbf{x}$ 。注意这里的 $\mathbf{w}^{T} \mathbf{x}$ 是dot product，即 $\mathbf{w}^{T} \mathbf{x} = w_1*x_1+w_2*x_2+...+w_n*x_n$ 。
所以我们寻找最佳边缘的任务，也就是根据训练集 D = $\{ (\mathbf{x}_1,t_1),(\mathbf{x}_2,t_2),\dots ,(\mathbf{x}_m,t_m)\}$ ，寻找最佳的 $\mathbf{w}$ 和 $b$ 的任务。在这里， $t_i\in\{+1,-1\}$ 表示的是两个类别的标签。我们可以这么定义 $t_i$ 和 $y(\mathbf{x}_i)$ 的关系：

当 $y(\mathbf{x}_i) > 0$ 时， $t_i = +1$
当 $y(\mathbf{x}_i) < 0$ 时， $t_i = -1$
(当 $y(\mathbf{x}_i) = 0$ 时， $\mathbf{x}_i$ 在我们的分类面上)

因为我们假设所有的数据点线性可分，所以存在这么一个 $y_0(\mathbf{x}) = \mathbf{w_0}^{T} \mathbf{x} + b_0$ 使得 $t_i y_0(\mathbf{x_i})>0$ 对于所有 $\mathbf{x_i}$ 成立。我们的目标就是找到这么一个 $y_0$ 使得距离最近的点到 $y_0(\mathbf{x})=0$ 这个分类面的距离最大化。

接下来，我们对y里面的参数 $\mathbf{w}$ 和 $b$ 进行归一化：分别变成 $\mathbf{w}/{\|\mathbf{w}\|}$ 和 $b/{\|\mathbf{w}\|}$ 。（ $\|\mathbf{w}\|=\sqrt{w_1^2+...+w_n^2}$ ）归一化的处理并不会影响 $t_iy(\mathbf{x_i})>0$ 这一性质,因为它并不会改变 $y(\mathbf{x_i})$ 的符号。所以归一化后我们得到：
$\delta_i=\frac{t_iy(\mathbf{x_i})}{\|\mathbf{w}\|} =\frac{|y(\mathbf{x_i})|}{\|\mathbf{w}\|}$

是不是很眼熟？这就是 $\mathbf{x_i}$ 到分类面的Euclidean距离。现在我们可以来定义我们所求解的问题：

$\textrm{arg}\max_{\mathbf{w},b}\{ \frac{1}{\|\mathbf{w}\|}\min_{i}(t_i(\mathbf{w}^T\phi(\mathbf{x}_i)+b)) \}$

通俗点解释这道式子，就是我们要找到这么一对 $\mathbf{w}$ 和 $b$ ，使得 $\frac{|y(\mathbf{x_i})|}{\|\mathbf{w}\|}$ 的最小值最大，也就是最大化距离分类面最近的点 $\mathbf{x_i}$ 。在这里，我们可以把 $\frac{1}{\|\mathbf{w}\|}$ 移到min外面，因为它的值不取决于i。而这个 $\mathbf{x_i}$ ，就是SVM里面的support vector，支持向量。

前面说过，我们的模型 $\mathbf{w}$ 和 $b$ 只取决于少数的点，就是这些支持向量。支持向量的个数至少会有两个。因为如果你只找到一个支持向量，那么你只要稍微把分类面平移远一些，一定能再找到至少一个。SVM优美的地方就在于，它在保证所有点正确分割的情况下，只关注少量的支持向量，以求出最公平的分类边界。

现在我们要来找 $\mathbf{w}$ 和 $b$ 了。

…

式子太复杂了啊！！胖丁我比较笨，所以先给支持向量们加一个条件，让式子简化一下：

t i (w T ϕ (x i) + b) = 1

$t_i(\mathbf{w}^T\phi(\mathbf{x}_i)+b) = 1$

我们知道 $\min_{i}(t_i(\mathbf{w}^T\phi(\mathbf{x}_i)+b))$ 得到的i就是支持向量的下标，那么因为支持向量们被胖丁限制住了，所以

min i (t i (w T ϕ (x i) + b)) = 1

$\min_{i}(t_i(\mathbf{w}^T\phi(\mathbf{x}_i)+b)) =1$

换句话说，我们的优化问题变成了

arg max w, b {1 ∥ w ∥}

$\textrm{arg}\max_{\mathbf{w},b}\{ \frac{1}{\|\mathbf{w}\|}\}$

也就是

min w, b {∥ w ∥}

$\min_{\mathbf{w},b}\{ \|\mathbf{w}\|\}$

因为我们后面会将这个式子求导，所以我们稍微改变一下：

min w, b 1 2 ∥ w ∥ 2

$\min_{\mathbf{w},b}\frac12 \|\mathbf{w}\|^2$

这是一个凸函数求极值。然后把限制条件也改一下：

t i (w T ϕ (x i) + b) - 1 \geq 0

$t_i(\mathbf{w}^T\phi(\mathbf{x}_i)+b) -1\geq 0$

但是就是这样一道问题，胖丁还是解不出来~所以，只能借助先人伟大的智慧—-Lagrange 乘子法。

对于一般优化问题：

{min w f (w) s . t . g i (w) \leq 0

$\left\{ \begin{array}{l l l} \min_{\mathbf{w}}f(\mathbf{w}) & \quad \\ s.t. g_i(\mathbf{w})\leq0 & \quad \end{array} \right.$

根据Lagrange乘子法求极值法则，我们能得到Lagrange公式：

L (w, a) = f (w) + \sum i = 1 n a i g i (w)

$L(\mathbf{w},\mathbf{a}) = f(\mathbf{w}) + \sum_{i=1}^{n}{a_ig_i(\mathbf{w})}$
其中

a=(a1,…,an)T $\mathbf{a} = (a_1,\dots,a_n)^T$ 为Lagrange乘子。由于我们要求解一个拥有不等式约束的优化问题，我们需要用到KKT条件：

⎧ ⎩ ⎨ ⎪ ⎪ ▽ w L (w, a) = 0 a i \geq 0 a i g i (w) = 0

$\left\{ \begin{array}{l l l} \bigtriangledown_\mathbf{w}{L(\mathbf{w},\mathbf{a})}=0 & \quad \\ a_i \geq 0 & \quad \\ a_ig_i(\mathbf{w}) = 0 & \quad \end{array} \right.$
其中第三个条件实际上造就了SVM的高效性：当

gi(w)<0 $g_i(\mathbf{w}) <0$ 时，

ai=0 $a_i=0$ 。这使得我们只需要考虑少量的

ai≠0 $a_i\neq0$ 而不是所有

ai $a_i$ 。

这里我们省略了原Lagrange和KKT条件中的等式项，因为SVM优化的元问题中并没有等式约束项。

接下来我们简单介绍一下Lagrange+KKT的基本原理。不求面面俱到，只求通俗易懂。实际上，Lagrange本身只有一个约束条件： $a_i \geq 0$ ，而KKT中的第一和第三个条件是可以推导出来的。

通过观察我们可以发现，原问题的 $\min_{\mathbf{w}}f(\mathbf{w})$ 其实相当于：

min w f (w) = min w (max a L (w, a))

$\min_{\mathbf{w}}f(\mathbf{w})=\min_{\mathbf{w}}(\max_{\mathbf{a}}L(\mathbf{w},\mathbf{a}))$

因为 $a_i \geq 0$ 而且 $g_i(\mathbf{w})\leq0$ ，也就是说 $a_ig_i(\mathbf{w})\leq0$ 。那么当我们对 $L(\mathbf{w},\mathbf{a})$ 求最大值的时候，我们可以找出适合的 $\mathbf{a}$ 使得 $a_ig_i(\mathbf{w})=0$ ，这就是KKT中的第三个条件。所以有：

f (w) = max a L (w, a)

$f(\mathbf{w})=\max_{\mathbf{a}}L(\mathbf{w},\mathbf{a})$

那么要如何求 $\min_{\mathbf{w}}(\max_{\mathbf{a}}L(\mathbf{w},\mathbf{a}))$ 呢？前面我们说过，

“在凸函数领域，当原问题不方便求解时，我们可以先求解其对偶问题；在满足一定条件的情况下，其对偶问题的解等同于原问题的解。”

也就是说

f (w *) = min w (max a L (w, a)) = max a (min w L (w, a))

$f(\mathbf{w^*})=\min_{\mathbf{w}}(\max_{\mathbf{a}}L(\mathbf{w},\mathbf{a}))=\max_{\mathbf{a}}(\min_{\mathbf{w}}L(\mathbf{w},\mathbf{a}))$

通过观察我们发现，对偶问题中的 $\min_{\mathbf{w}}L(\mathbf{w},\mathbf{a})$ 实际上就是对 $L(\mathbf{w},\mathbf{a})$ 求导并找出 $\mathbf{w^*}$ 使得 $\bigtriangledown_\mathbf{w}L(\mathbf{w},\mathbf{a})=0$ 。这就是KKT中的第一个条件。

至此,我们得到了KKT的全部三个条件。在满足这三个条件的情况下，我们就能找到最佳的 $\mathbf{w^*}$ ；也就是SVM中的 $\mathbf{w^*}$ 和 $b^*$ 。

接下来我们把Lagrange公式和KKT条件移植到我们的问题上：

L (w, b, a) = 1 2 ∥ w ∥ 2 - \sum i = 1 n a i {t i (w T ϕ (x i) + b) - 1}

$L(\mathbf{w},b,\mathbf{a}) = \frac{1}{2}\|\mathbf{w}\|^2 - \sum_{i=1}^{n}{a_i\{ t_i(\mathbf{w}^T\phi(\mathbf{x}_i)+b)-1\}}$

由于元问题条件中的 $g_i(\mathbf{w})\leq0$ 变成了 $t_i(\mathbf{w}^T\phi(\mathbf{x}_i)+b)-1 \geq 0$ ，也就是 $-(t_i(\mathbf{w}^T\phi(\mathbf{x}_i)+b)-1) \leq 0$ ，所以我们把Lagrange公式中间的 $+$ 换成了 $-$ 。

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ t i (w T ϕ (x i) + b) - 1 \geq 0 ▽ w L (w, b, a) = 0 ▽ b L (w, b, a) = 0 a i \geq 0 a i {t i (w T ϕ (x i) + b) - 1} = 0

$\left\{ \begin{array}{l l l} t_i(\mathbf{w}^T\phi(\mathbf{x}_i)+b)-1 \geq 0 & \quad \\ \bigtriangledown_\mathbf{w}{L(\mathbf{w},b,\mathbf{a})}=0 & \quad \\ \bigtriangledown_b{L(\mathbf{w},b,\mathbf{a})}=0 & \quad \\ a_i \geq 0 & \quad \\ a_i\{ t_i(\mathbf{w}^T\phi(\mathbf{x}_i)+b)-1\} = 0 & \quad \end{array} \right.$

探究第二个条件可得：

▽ w (1 2 ∥ w ∥ 2 - \sum i = 1 n a i {t i (w T ϕ (x i) + b) - 1}) = 0

$\bigtriangledown_\mathbf{w}{(\frac{1}{2}\|\mathbf{w}\|^2 - \sum_{i=1}^{n}{a_i\{ t_i(\mathbf{w}^T\phi(\mathbf{x}_i)+b)-1\}})}=0$

w - \sum i = 1 n a i t i ϕ (x i) = 0

$\mathbf{w}-\sum_{i=1}^{n}{a_it_i\phi(\mathbf{x}_i)}=0$

w = \sum i = 1 n a i t i ϕ (x i)

$\mathbf{w}=\sum_{i=1}^{n}{a_it_i\phi(\mathbf{x}_i)}$

探究第三个条件可得：

▽ b (1 2 ∥ w ∥ 2 - \sum i = 1 n a i {t i (w T ϕ (x i) + b) - 1}) = 0

$\bigtriangledown_b{(\frac{1}{2}\|\mathbf{w}\|^2 - \sum_{i=1}^{n}{a_i\{ t_i(\mathbf{w}^T\phi(\mathbf{x}_i)+b)-1\}})}=0$

\sum i = 1 n a i t i = 0

$\sum_{i=1}^{n}{a_it_i}=0$

将第二个条件和第三个条件的推导代入Lagrange公式，（省略步骤）可得：

L (a) = \sum i = 1 n a i - 1 2 \sum i = 1 n \sum j = 1 n a i a j t i t j ϕ (x i) T ϕ (x j) = a \cdot 1 - 1 2 a T D a

$L(\mathbf{a}) =\sum_{i=1}^{n}{a_i}- \frac{1}{2}\sum_{i=1}^{n}{\sum_{j=1}^{n}{a_ia_j t_it_j\phi(\mathbf{x}_i)^T\phi(\mathbf{x}_j)}} =\mathbf{a}·1-\frac12\mathbf{a^T}D\mathbf{a}$

带有约束条件：

⎧ ⎩ ⎨ ⎪ ⎪ a i \geq 0 \sum i = 1 n a i t i = 0

$\left\{ \begin{array}{l l l} a_i \geq 0 & \quad \\ \sum_{i=1}^{n}{a_it_i}=0 & \quad \end{array} \right.$

到这里，我们就可以通过找出最佳的 $\mathbf{a}$ 值，使得 $L(\mathbf{a})$ 达到最大值，然后代入公式求出 $\mathbf{w}_0$ 和 $b_0$ 。求解 $\mathbf{a}$ 的过程是一个典型的二次规划(quadratic programming)问题。借度娘的来解释一下什么是二次规划：
典型的二次规划问题

SMO算法是解决二次规划问题的常用方法之一，特别对于线性SVM的求解有较好的表现。原算法的论文参考John C. Platt在1998年发表的《Sequential Minimal Optimization A Fast Algorithm for Training Support Vector Machines》

以下内容参考
http://blog.csdn.net/huangynn/article/details/18553069?locationNum=11
并加以改进和完善

John C. Platt给这个QP问题的 $a_i$ 的范围加上了一个上限C，即原问题变成：

L (a) = \sum i = 1 n a i - 1 2 \sum i = 1 n \sum j = 1 n a i a j t i t j ϕ (x i) T ϕ (x j)

$L(\mathbf{a}) =\sum_{i=1}^{n}{a_i}- \frac{1}{2}\sum_{i=1}^{n}{\sum_{j=1}^{n}{a_ia_j t_it_j\phi(\mathbf{x}_i)^T\phi(\mathbf{x}_j)}}$
s.t.

⎧ ⎩ ⎨ ⎪ ⎪ 0 \leq a i \leq C \sum i = 1 n a i t i = 0

$\left\{ \begin{array}{l l l} 0 \leq a_i \leq C & \quad \\ \sum_{i=1}^{n}{a_it_i}=0 & \quad \end{array} \right.$
我们知道，式子中

ti $t_i$ 和

xi $\mathbf{x}_i$ 的值都是固定的，而

ϕ $\phi$ 也是固定的函数。

算法的基本思路是：使用迭代优化，先选取一个符合条件的 $\mathbf{a}$ 序列，每次对其中2个项进行迭代优化，直到得到最优解。SMO的高效性体现就体现在其每次迭代只更新2个项，而固定其他n-2个参数的值不变，减少冗余的计算量。

而之所以一次迭代2个参数而非1个，是因为限制条件中的第二个不允许只改变单一个 $a_i$ 的值。

下面是一次迭代的示例：

假设我们已经拥有一组序列 $\mathbf{a}=\{a_1,\dots,a_n \}$ 且满足上面两个限制条件。假设我们选取 $a_1$ 和 $a_2$ 作为迭代参数，并固定其他参数的值：

a 1 t 1 + a 2 t 2 = - \sum i = 3 n a i t i = Q

$a_1t_1+a_2t_2=-\sum_{i=3}^{n}{a_it_i}=Q$

根据 $t_1$ 和 $t_2$ 的值不同，我们要考虑两种情况：

{a 1 - a 2 = Q a 1 + a 2 = Q

$\left\{ \begin{array}{l l l} a_1-a_2=Q & \quad \\ a_1+a_2=Q & \quad \end{array} \right.$
在这里我们分别规定两种情况的上下限，后面有用：
当

t1=t2 $t_1=t_2$ ：

{B u p p e r = min (C, a 2 + a 1) B l o w e r = max (0, a 2 + a 1 - C)

$\left\{ \begin{array}{l l l} B_{upper} = \min(C,a_2+a_1) & \quad \\ B_{lower} = \max(0,a_2+a_1-C) & \quad \end{array} \right.$
当

t1=−t2 $t_1=-t_2$ 时：

{B u p p e r = min (C, a 2 - a 1 + C) B l o w e r = max (0, a 2 - a 1)

$\left\{ \begin{array}{l l l} B_{upper} = \min(C,a_2-a_1+C) & \quad \\ B_{lower} = \max(0,a_2-a_1) & \quad \end{array} \right.$
把

a1 $a_1$ 用

a2 $a_2$ 的形式表示出来就是

a1=(Q+a2t2)t1 $a_1=(Q+a_2t_2)t_1$ ，或者分成两种情况：

{a 1 = Q + a 2 a 1 = Q - a 2

$\left\{ \begin{array}{l l l} a_1=Q+a_2 & \quad \\ a_1=Q-a_2 & \quad \end{array} \right.$
将其代入

L(a) $L(\mathbf{a})$ ：

L (a 1, a 2, \dots, a n) = L ((Q + a 2 t 2) t 1, a 2, \dots, a n)

$L(a_1,a_2,\dots,a_n)=L((Q+a_2t_2)t_1,a_2,\dots,a_n)$

由于除了 $a_1$ 和 $a_2$ 之外的 $a_i$ 都是固定值，我们可以得到：

L ((Q + a 2 t 2) t 1, a 2, \dots, a n) = α a 22 + β a 2 + γ

$L((Q+a_2t_2)t_1,a_2,\dots,a_n)=\alpha a_2^2+\beta a_2+\gamma$

已知 $\alpha$ ， $\beta$ 和 $\gamma$ 是常数。要得到最大值的L，我们可以对L求导并求解二元一次方程 $\bigtriangledown_{a_2}L=0$ ，然后代入 $a_2$ 求出 $a_1$ 。

然而， $a_2$ 的值本身还有上限和下限：

a n e w 2 = ⎧ ⎩ ⎨ ⎪ ⎪ B u p p e r a n e w 2 B l o w e r if a n e w 2 > B u p p e r if B l o w e r \leq a n e w 2 \leq B u p p e r if a n e w 2 < B l o w e r

$a_2^{new}= \left\{ \begin{array}{l l l} B_{upper} & \text {if $a_2^{new}>B_{upper}$ } \quad \\ a_2^{new} & \text {if $B_{lower} \leq a_2^{new} \leq B_{upper}$ } \quad \\ B_{lower} & \text {if $a_2^{new}<B_{lower} $ } \quad \end{array} \right.$

最后可以由 $\mathbf{a}$ 的最佳序列，算出最佳的 $\mathbf{w}$ ，进而算出 $b$ 。