【机器学习】支持向量机原理(二) 线性支持向量机的软间隔最大化模型

最新推荐文章于 2020-04-14 11:39:11 发布

o(*￣︶￣*)o__小肉松

最新推荐文章于 2020-04-14 11:39:11 发布

阅读量377

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/made_in_china_too/article/details/79529332

版权

机器学习专栏收录该内容

26 篇文章 1 订阅

订阅专栏

1. 线性分类SVM面临的问题

　　有时候本来数据的确是可分的，也就是说可以用线性分类SVM的学习方法来求解，但是却因为混入了异常点，导致不能线性可分，比如下图，本来数据是可以按下面的实线来做超平面分离的，可以由于一个橙色和一个蓝色的异常点导致我们没法按照上一篇线性支持向量机中的方法来分类。
　　这里写图片描述
　　
　　另外一种情况没有这么糟糕到不可分，但是会严重影响我们模型的泛化预测效果，比如下图，本来如果我们不考虑异常点，SVM的超平面应该是下图中的红色线所示，但是由于有一个蓝色的异常点，导致我们学习到的超平面是下图中的粗虚线所示，这样会严重影响我们的分类模型预测效果。
　　这里写图片描述
　　如何解决这些问题呢？SVM引入了软间隔最大化的方法来解决。

2. 线性分类SVM的软间隔最大化

　　所谓的软间隔，是相对于硬间隔说的，我们可以认为上一篇线性分类SVM的学习方法属于硬间隔最大化。
　　回顾下硬间隔最大化的条件：

min 1 2 | | w | | 2 s . t . y i (W T x i + b) \geq 1 (i = 1, 2, . . . m)

$\begin{equation} \min \,\, \frac {1}{2}||w||^2 \,\, s.t. \,\, y_i(W^Tx_i+b) \geq1 (i=1,2,...m) \notag \end{equation}$
　　接着我们再看如何可以软间隔最大化呢？
　　 SVM对训练集里面的每个样本

(xi,yi) ( x i , y i ) $\ (x_i,y_i)$ 引入了一个松弛变量

ξi≥0 ξ i ≥ 0 $\ \xi_i \geq0$ ，使函数间隔加上松弛变量大于等于1，也就是说：

y i (w ∙ x i + b) \geq 1 - ξ i

$\begin{equation} y_i(w \bullet x_i +b) \geq 1- \xi_i \notag \end{equation}$ 　　
　　对比硬间隔最大化，可以看到我们对样本到超平面的函数距离的要求放松了，之前是一定要大于等于1，现在只需要加上一个大于等于0的松弛变量能大于等于1就可以了。当然，松弛变量不能白加，这是有成本的，每一个松弛变量

ξi ξ i $\ \xi_i$ , 对应了一个代价

ξi ξ i $\ \xi_i$ ，这个就得到了我们的软间隔最大化的SVM学习条件如下：

m i n 1 2 | | w | | 2 + C \sum i = 1 m ξ i s . t . y i (w T x i + b) \geq 1 - ξ i (i = 1, 2, . . . m) ξ i \geq 0 (i = 1, 2, . . . m)

$\begin{equation} min \,\, \frac {1}{2}||w||^2 + C \sum\limits_{i=1}^m \xi_i \notag \\ s.t. \,\, y_i(w^Tx_i+b) \geq 1-\xi_i (i=1,2,...m) \notag \\ \xi_i \geq0 (i=1,2,...m) \notag \end{equation}$ 　　　
　　这里

C≥0 C ≥ 0 $\ C \geq0$ 为惩罚参数，可以理解为我们一般回归和分类问题正则化时候的参数。

C C $\ C$ 越大，对误分类的惩罚越大，

C C $\ C$ 越小，对误分类的惩罚越小。
　　也就是说，我们希望

12||w||2 1 2 | | w | | 2 $\ \frac {1}{2}||w||^2$ 尽量小，误分类的点尽可能的少。C是协调两者关系的正则化惩罚系数。在实际应用中，需要调参来选择。
　　这个目标函数的优化和上一篇的线性可分SVM的优化方式类似，我们下面就来看看怎么对线性分类SVM的软间隔最大化来进行学习优化。

3. 线性分类SVM的软间隔最大化目标函数的优化

　　和线性可分SVM的优化方式类似，我们首先将软间隔最大化的约束问题用拉格朗日函数转化为无约束问题如下：

L (w, b, ξ, α, μ) = 1 2 | | w | | 2 + C \sum i = 1 m ξ i - \sum i = 1 m α i [y i (w T x i + b) - 1 + ξ i] - \sum i = 1 m μ i ξ i

$\begin{align} L(w,b,\xi,\alpha,\mu) =\frac {1}{2}||w||^2 + C \sum\limits_{i=1}^m \xi_i - \sum\limits_{i=1}^m \alpha_i[y_i(w^Tx_i+b) -1 + \xi_i] - \sum\limits_{i=1}^m \mu_i\xi_i \notag \end{align}$ 　
　　其中

μi≥0,αi≥0 μ i ≥ 0 , α i ≥ 0 $\ \mu_i \geq0 , \alpha_i \geq0$ ，均为拉格朗日系数。
　　也就是说，我们现在要优化的目标函数是：

m i n      w, b, ξ m a x      α i \geq 0, μ i \geq 0 L (w, b, α, ξ, μ)

$\begin{equation} \underbrace {min}_{w,b,\xi} \,\, \underbrace {max}_{\alpha_i \geq0 , \mu_i \geq0} L(w,b,\alpha,\xi,\mu) \notag \end{equation}$ 　　
　　这个优化目标也满足KKT条件，也就是说，我们可以通过拉格朗日对偶将我们的优化问题转化为等价的对偶问题来求解如下：

m a x      α i \geq 0, μ i \geq 0 m i n      w, b, ξ L (w, b, α, ξ, μ)

$\begin{equation} \underbrace {max}_{\alpha_i \geq0 , \mu_i \geq0} \,\, \underbrace {min}_{w,b,\xi} L(w,b,\alpha,\xi,\mu) \notag \end{equation}$ 　　
　　我们可以先求优化函数对于

w,b,ξ w , b , ξ $\ w,b,\xi$ 的极小值，接着再求拉格朗日乘子

α α $\ \alpha$ 和

μ μ $\mu$ 的极大值。
　　首先我们来求优化函数对于

w,b,ξ w , b , ξ $\ w,b,\xi$ 的极小值，这个可以通过求偏导数求得：

α L α w = 0 \Rightarrow w = \sum i = 1 m α i y i x i α L α b = 0 \Rightarrow \sum i = 1 m α i y i = 0 α L α b = 0 \Rightarrow C - α i - μ i = 0

$\begin{equation} \frac {\alpha L}{\alpha w}=0 \Rightarrow w=\sum\limits_{i=1}^m \alpha_iy_ix_i \notag \\ \frac {\alpha L}{\alpha b}=0 \Rightarrow \sum\limits_{i=1}^m \alpha_i y_i=0 \notag \\ \frac {\alpha L}{\alpha b}=0 \Rightarrow C-\alpha_i - \mu_i =0 \end{equation}$ 　
　　好了，我们可以利用上面的三个式子去消除

w w $\ w$ 和

b b $\ b$ 了。

L (w, b, α, ξ, μ) = 1 2 | | w | | 2 + C \sum i = 1 m ξ i - \sum i = 1 m α i [y i (w T x i + b) - 1 + ξ i] - \sum i = 1 m μ i ξ i = 1 2 | | w | | 2 - \sum i = 1 m α i [y i (w T x i + b) - 1 + ξ i] + \sum i = 1 m α ξ i = 1 2 | | w | | 2 - \sum i = 1 m α i [y i (w T x i + b) - 1] = 1 2 w T w - \sum i = 1 m α i y i w T x i - \sum i = 1 m α i y i b + \sum i = 1 m α i = 1 2 w T \sum i = 1 m α i y i x i - \sum i = 1 m α i y i w T x i - \sum i = 1 m α i y i b + \sum i = 1 m α i = 1 2 w T \sum i = 1 m α i y i x i - w T \sum i = 1 m α i y i x i - \sum i = 1 m α i y i b + \sum i = 1 m α i = - 1 2 w T \sum i = 1 m α i y i x i - \sum i = 1 m α i y i b + \sum i = 1 m α i = - 1 2 w T \sum i = 1 m α i y i x i - b \sum i = 1 m α i y i + \sum i = 1 m α i = - 1 2 (\sum i = 1 m α i y i x i) T (\sum i = 1 m α i y i x i) - b \sum i = 1 m α i y i + \sum i = 1 m α i = - 1 2 \sum i = 1 m α i y i x T i \sum i = 1 m α i y i x i - b \sum i = 1 m α i y i + \sum i = 1 m α i = - 1 2 \sum i = 1 m α i y i x T i \sum i = 1 m α i y i x i + \sum i = 1 m α i = - 1 2 \sum i = 1 m \sum j = 1 m α i y i x T i α j y j x j + \sum i = 1 m α i = - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x T i x j + \sum i = 1 m α i (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13)

$\begin{align} L(w,b,\alpha,\xi,\mu) &= \frac {1}{2}||w||^2 + C \sum\limits_{i=1}^m \xi_i - \sum\limits_{i=1}^m \alpha_i[y_i(w^Tx_i+b) -1 + \xi_i] - \sum\limits_{i=1}^m \mu_i\xi_i \tag 1 \\ &= \frac {1}{2}||w||^2 - \sum\limits_{i=1}^m \alpha_i[y_i(w^Tx_i+b) -1 + \xi_i] + \sum\limits_{i=1}^m \alpha \xi_i \tag 2 \\ &=\frac {1}{2}||w||^2 - \sum\limits_{i=1}^m \alpha_i[y_i(w^Tx_i+b) -1 ] \tag 3 \\ &=\frac {1}{2}w^Tw - \sum\limits_{i=1}^m \alpha_iy_iw^Tx_i - \sum\limits_{i=1}^m \alpha_iy_ib + \sum\limits_{i=1}^m \alpha_i \tag 4 \\ &= \frac {1}{2}w^T \sum\limits_{i=1}^m \alpha_iy_ix_i - \sum\limits_{i=1}^m \alpha_iy_iw^Tx_i - \sum\limits_{i=1}^m \alpha_iy_ib + \sum\limits_{i=1}^m \alpha_i \tag 5 \\ &= \frac {1}{2}w^T \sum\limits_{i=1}^m \alpha_iy_ix_i - w^T\sum\limits_{i=1}^m \alpha_iy_ix_i - \sum\limits_{i=1}^m \alpha_iy_ib + \sum\limits_{i=1}^m \alpha_i \tag 6 \\ &= - \frac {1}{2}w^T \sum\limits_{i=1}^m \alpha_iy_ix_i - \sum\limits_{i=1}^m \alpha_iy_ib + \sum\limits_{i=1}^m \alpha_i \tag 7 \\ &=- \frac {1}{2}w^T \sum\limits_{i=1}^m \alpha_iy_ix_i - b \sum\limits_{i=1}^m \alpha_iy_i + \sum\limits_{i=1}^m \alpha_i \tag 8 \\ &=- \frac {1}{2}(\sum\limits_{i=1}^m \alpha_iy_ix_i)^T (\sum\limits_{i=1}^m \alpha_iy_ix_i) - b \sum\limits_{i=1}^m \alpha_iy_i + \sum\limits_{i=1}^m \alpha_i \tag 9 \\ &=- \frac {1}{2}\sum\limits_{i=1}^m \alpha_iy_ix_i^T \sum\limits_{i=1}^m \alpha_iy_ix_i - b \sum\limits_{i=1}^m \alpha_iy_i + \sum\limits_{i=1}^m \alpha_i \tag {10} \\ &=- \frac {1}{2}\sum\limits_{i=1}^m \alpha_iy_ix_i^T \sum\limits_{i=1}^m \alpha_iy_ix_i + \sum\limits_{i=1}^m \alpha_i \tag {11} \\ &=- \frac {1}{2}\sum\limits_{i=1}^m \sum\limits_{j=1}^m \alpha_iy_ix_i^T \alpha_jy_jx_j + \sum\limits_{i=1}^m \alpha_i \tag {12} \\ &=- \frac {1}{2}\sum\limits_{i=1}^m \sum\limits_{j=1}^m \alpha_i \alpha_j y_i y_j x_i^T x_j + \sum\limits_{i=1}^m \alpha_i \tag {13} \end{align}$ 　
　　仔细观察可以发现，这个式子和我们上一篇线性可分SVM的一样。唯一不一样的是约束条件。现在我们看看我们的优化目标的数学形式：

m a x      α - 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x T i x j + \sum i = 1 m α i s . t . \sum i = 1 m α i y i = 0 C - α i - μ i = 0 α i \geq 0 (i = 1, 2, . . ., m) μ i \geq 0 (i = 1, 2, . . ., m)

$\begin{equation} \underbrace {max}_{\alpha} - \frac {1}{2}\sum\limits_{i=1}^m \sum\limits_{j=1}^m \alpha_i \alpha_j y_i y_j x_i^T x_j + \sum\limits_{i=1}^m \alpha_i \notag \\ s.t. \,\, \sum\limits_{i=1}^m \alpha_iy_i=0 \\ C-\alpha_i-\mu_i=0 \\ \alpha_i \geq0 \, (i=1,2,...,m) \\ \mu_i \geq0 \, (i=1,2,...,m) \end{equation}$ 　
　　对于

C−αi−μi=0,αi≥0,μi≥0 C − α i − μ i = 0 , α i ≥ 0 , μ i ≥ 0 $\ C-\alpha_i-\mu_i=0 , \alpha_i \geq0 , \mu_i \geq0$ 这3个式子，我们可以消去

μi μ i $\ \mu_i$ ，只留下

αi α i $\ \alpha_i$ ，也就是

0≤αi≤C 0 ≤ α i ≤ C $\ 0 \leq \alpha_i \leq C$ 。同时将优化目标函数变号，求极小值，如下：

m i n      α 1 2 \sum i = 1 m \sum j = 1 m α i α j y i y j x T i x j - \sum i = 1 m α i s . t . \sum i = 1 m α i y i = 0 0 \leq α i \leq C

$\begin{equation} \underbrace {min}_{\alpha} \frac {1}{2}\sum\limits_{i=1}^m \sum\limits_{j=1}^m \alpha_i \alpha_j y_i y_j x_i^T x_j - \sum\limits_{i=1}^m \alpha_i \notag \\ s.t. \,\, \sum\limits_{i=1}^m \alpha_iy_i=0 \\ 0 \leq \alpha_i \leq C \end{equation}$ 　
　　这就是软间隔最大化时的线性可分SVM的优化目标形式，和上一篇的硬间隔最大化的线性可分SVM相比，我们仅仅是多了一个约束条件

0≤αi≤C 0 ≤ α i ≤ C $\ 0 \leq \alpha_i \leq C$ 。我们依然可以通过SMO算法来求上式极小化时对应的

α α $\ \alpha$ 向量就可以求出

w w $\ w$ 和

b b $\ b$ 了。

4. 软间隔最大化时的支持向量

　　在硬间隔最大化时，支持向量比较简单，就是满足 $\ y_i(w^Tx_i+b)-1=0$ 就可以了。根据KKT条件中的对偶互补条件 $\ \alpha_i^* (y_i(w^Tx_i+b)-1)=0$ ，如果 $\ \alpha_i^*>0$ 则有 $\ y_i(w^Tx_i+b)=1$ ，即点在支持向量上。如果 $\ \alpha_i^*=0$ 则有 $\ y_i(w^Tx_i+b) \geq1$ ，即样本在支持向量上或者已经被正确分类。
　　在软间隔最大化时，则稍微复杂一些，因为我们对每个样本 $\ (x_i,y_i)$ 引入了松弛变量 $\ \xi_i$ 。我们从下图来研究软间隔最大化时支持向量的情况，第 $\ i$ 个点到对应类别支持向量的距离为 $\ \frac {\xi_i}{||w||^2}$ 。根据软间隔最大化时KKT条件中的对偶互补条件 $\ a_i^*(y_i(w^Tx_i+b)-1+ \xi_i^*)=0$ ，我们有：
　　 a)如果 $\ \alpha=0$ ，那么 $\ y_i(w^Tx_i+b)-1 \geq0$ ，即样本在支持向量上或者已经被正确分类。如图中所有远离支持向量的点。
　　 b)如果 $\ 0<\alpha<C$ ，那么 $\ \xi_i=1 , y_i(w^Tx_i+b)-1=0$ ，即点在支持向量上。如图中在虚线支持向量上的点。
　　 c)如果 $\ \alpha=C$ ，说明这是一个可能比较异常的点，需要检查此时 $\ \xi_i$
　　　　 i) 如果 $\ 0 \leq \xi_i \leq1$ ，那么点被正确分类，但是却在超平面和自己类别的支持向量之间。如图中的样本2和4。
　　　　 ii)如果 $\ \xi_i=1$ ，那么点在分割超平面上，无法被正确分类。
　　　　 iii)如果 $\ \xi_i>1$ ，那么点在超平面的另一侧，也就是说，这个点不能被正确分类。如图中的样本1和3.
　　　　这里写图片描述

5. 软间隔最大化的线性可分SVM的算法过程

　　这里我们对软间隔最大化时的线性可分SVM的算法过程做一个总结。
　　输入是线性可分的m个样本 $\ (x_1,y_1),(x_2,y_2),...,(x_m,y_m)$ ，其中x为n维特征向量。y为二元输出，值为1，或者-1.
　　输出是分离超平面的参数 $\ w^*$ 和 $\ b^*$ 和分类决策函数。
　　算法过程如下：
　　 1) 选择一个惩罚系数 $\ C>0$ , 构造约束优化问题

m i n      α 1 2 \sum i = 1 m \sum j = 1 m α i y i x T i α j y j x j - \sum i = 1 m α i s . t . \sum i = 1 m α i y i = 0 0 \leq α i \leq C

$\begin{equation} \underbrace {min}_{\alpha} \frac {1}{2}\sum\limits_{i=1}^m \sum\limits_{j=1}^m \alpha_iy_ix_i^T \alpha_jy_jx_j - \sum\limits_{i=1}^m \alpha_i \notag \\ s.t. \,\, \sum\limits_{i=1}^m \alpha_iy_i=0 \\ 0 \leq \alpha_i \leq C \end{equation}$ 　　
　　 2) 用

SMO S M O $\ SMO$ 算法求出上式最小时对应的

α α $\ \alpha$ 向量的值

α∗ α ∗ $\ \alpha^*$ 向量.
　　 3) 计算