统计学习方法(四) 支撑向量机

最新推荐文章于 2024-06-11 16:13:44 发布

橘子oly

最新推荐文章于 2024-06-11 16:13:44 发布

阅读量327

点赞数

分类专栏：机器学习&DM 文章标签：机器学习算法统计学习方法

本文链接：https://blog.csdn.net/u014265088/article/details/52804385

版权

机器学习&DM 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

又再一次看到SVM这一章了啊，其实每次想起SVM我内心都是十分？敬畏(误)？的，其原始思想倒是易懂，但其中涉及到的对偶问题转换，凸二次规划问题，核函数，正定核，SMO，这些用法里面每一个都包含太多公式，太多推导。对于其中的一些数学思想，我以为自己不应当去深究了，但同时我又对知识充满了？渴求（大误）？，额。。

一.支撑向量机

模型：超平面w*x+b=0, 决策函数f(x) = sign(w*x+b)

策略：软/硬间隔最大化（软间隔最大化等价于最小化合页损失函数，正则化的--结构风险最小化）

算法：凸二次优化算法，SMO...

因为决策函数是sign(), 所以SVM用于二分类；分类面是超平面，所以本质上是线性分割(后面介绍的核技巧，虽是对输入空间的非线性分割，但实质上还是对高维特征空间的线性划分)。因为是凸优化问题，所以实际handle的时候会涉及到对偶问题（有利于求解，同时引出了核技巧中的思想）。

软间隔最大化，实际等价于合页损失函数最小化问题，合页损失函数比0-1损失函数更为复杂，其只有在确信度足够高的时候损失才为0。

二.函数间隔与几何间隔

函数间隔定义为 r^ = yi*(w*xi+b),

几何间隔定义为r = yi*(w*xi+b)/||w|| 这样使得对同一个超平面和同一样本点而言几何间隔是确定的（因同一超平面有不同的表达式，通过等比例变化w和b）

三.间隔最大化

在感知机中，我们也是使用超平面来分离两类样本点，其中超平面的选择是通过最小化误分类点到超平面的总距离。

而SVM中，直观思想是：对训练数据找到几何间隔最大的超平面意味着以充分大的确信度分类训练数据。

1）硬间隔最大化：

对于线性可分的数据集，直接通过硬间隔最大化来进行优化（因为函数间隔并不影响最优化问题的解，令其为1）。

其优化问题是凸二次规划，上面讲到可以用对偶问题来handle，通过拉格朗日对偶性。（前面说到对偶形式有助于引入核技巧，是因为对偶形式中只涉及到输入x的内积。）

在该策略下，不存在误分类的点，在整个优化过程中只有距离决策面最近的点影响了最终的优化结果，我们称之为支撑向量。只有支撑向量变化才会引起决策面的变化。

2）软间隔最大化

对于线性可分的数据集，实际中也可能存在一些特异点outlier(比如噪声点)，这时候我们引入一个松弛变量来放松要求。

同样，也将原始优化问题转化成对偶问题，方便求解。

因为引入了松弛变量，分类超平面并不能完美的正确分割所有样本点。那么此时，支撑向量包括了在间隔边界上，在间隔边界与分离超平面之间，以及在超平面误分一侧的点(也就是除了在正确分类间隔一侧的点)，因为这些点都会影响分离超平面（最优化结果）。

上面讲到，软间隔最大化等价于最小化合页损失函数，合页损失函数比0-1损失函数更为复杂，其只有在确信度足够高的时候损失才为0。

四.非线性支撑向量机与核函数

1）核技巧的思想：

实际中存在很多非线性可分的数据集，但是将其进行合适的升维之后可以变成线性可分的。这就是核技巧的思想--将输入空间通过非线性映射到高维特征空间，就可以使用SVM进行线性分割了。

2）核技巧的使用方法：

上面讲到要学习的对偶问题只涉及x之间的内积，通过引入正定的核函数（正定如何证明，看起来太复杂，被我略了），可以用核函数替代内积表达式（在这个过程中我们不需要知道输入空间到特征空间的具体映射关系，实际应用中只需要选择合适的常用核函数就好了）

五.序列最小化算法

上面讲到SVM学习算法要解决的是一个凸二次优化问题，有许多的最优化算法可用于解决这一问题，但是当样本容量很大时，它们的都变得十分低效。所以实际应用中，我们要寻找更高效的快速实现算法。SMO ( Sequential Minimal Optimization ) 就是一个常用的高效快速实现算法，用于SVM的学习。

SMO算法的基本思想就是将大优化问题分解为多个小优化问题（因为对它们进行顺序求解的结果与它们作为整体来求解的结果是一致的），基本思路是：如果所有变量都满足此最优化问题的KKT条件，那么该最优化问题的解就得到了。SMO是一种启发式算法。算法的基本实现方法是：每次在每个子问题中选择两个变量( alpha_i,alpha_j )，因为所有alpha之和固定，选择两个变量，实质上只有一个变量(一个可以用另一个来表示)，于是问题就变成了一个简单地二次规划，其基本形式为对a*x^2+b*x+c求极值，不过同时还要注意约束条件(对所求极值进行剪辑)。【变量具体如何选择我也没怎么看- -】

【问：为什么要同时选择两个变量进行优化呢？答：因为原问题存在一个约束条件就是所有alpha之和固定，若要改变其中一个变量，必然要改变另一个。】