SVM算法（四）接近线性可分的SVM求解

最新推荐文章于 2022-09-11 12:04:58 发布

guofei_fly

最新推荐文章于 2022-09-11 12:04:58 发布

阅读量552

点赞数

分类专栏：机器学习文章标签： SVM 接近线性可分

本文链接：https://blog.csdn.net/guofei_fly/article/details/102689127

版权

机器学习专栏收录该内容

39 篇文章 10 订阅

订阅专栏

一、接近线性可分的SVM问题的提出

在前文SVM算法（二）线性可分的SVM求解中，详细推导了对线性可分数据的超平面划分原理，同时也抛出了一个问题：若数据线性不可分，该如何处理？
本文将该问题进行一定程度的弱化，若数据接近线性可分，该如何求得合适的分隔面？
一种直观上的想法是：尽量保证原始线性可分数据的正确性，对分隔错误的样本点进行惩罚，即： $\begin{aligned}&\min\frac{1}{2}w^2+C[[ y_i(wx_i+b)<1]]\\&s.t.\space \space y_i(wx_i+b)\ge1\end{aligned}$ 该问题难以求解，不妨转换下思路：松弛样本点对分割面的距离要求，同时对松弛程度进行惩罚，即： $\begin{aligned}&\min\frac{1}{2}w^2+C\sum\limits_{i=1}^n \xi_i \\&s.t.\space \space y_i(wx_i+b)\ge1-\xi_i\\ &\qquad \xi_i \ge0\end{aligned}$ 式中 $\xi_i$ 即为对每个点间隔的松弛度，而 $C (C > 0)$ 为对松弛度的惩罚系数。通过这种设置，允许分隔面离部分点近（超过1），甚至划分错误。对应于线性可分中的硬间隔(hard margin)，这里的间隔称为软间隔（soft margin）。

二、接近线性可分的SVM问题的原始问题和对偶问题

与线性可分的SVM问题类似，构造广义拉格朗日朗日函数： $L(w,b,\xi,\alpha,\mu)=\frac{1}{2}w^2+C\sum\limits_{i=1}^n \xi_i+\sum\limits_i^n\alpha_i(1-\xi_i-y_i(wx_i+b))-\sum\limits_{i=1}^n \mu_i\xi_i,\alpha\ge0,\mu\ge0,\xi\ge0$ 原始问题可表示为： $\min_{w,b,\xi}\max_{\alpha,\mu}L(w,b,\xi,\alpha,\mu)$ 对偶问题可表示为 $\max_{\alpha,\mu}\min_{w,b,\xi}L(w,b,\xi,\alpha,\mu)$ 根据使得原始问题和对偶问题解相同的KKT条件，最优解 $w^*,b^*,\xi^*$ 满足： $\begin{aligned} &\nabla_{w^*}L(w^*,b^*,\xi^*,\alpha,\mu)=w^*-\sum\limits_{i=1}^n \alpha_ix_iy_i=0\\ & \nabla_{b^*}L(w^*,b^*,\xi^*,\alpha,\mu)=\sum\limits_{i=1}^n \alpha_iy_i=0\\&\nabla_{\xi^*}L(w^*,b^*,\xi^*,\alpha,\mu)=C-\alpha_i-\mu_i=0\\& \alpha_i(1-\xi_i^*-y_i(w^*x_i+b^*))=0\\& 1-\xi_i^*-y_i(w^*x_i+b^*)\le0\\&\alpha_i\ge0\\&\mu_i\xi_i^*=0\\&\xi_i^*\ge0\\& \mu_i\ge0\end{aligned}$ 将这些条件代入对偶问题： $\begin{aligned}&\min_{w^*,b^*,\xi^*}L(w^*,b^*,\xi^*,\alpha,\mu)\\=&\frac{1}{2}w^{*2}+(C-\alpha_i-\mu_i)\sum\limits_{i=1}^n \xi_i^*+\sum\limits_{i=1}^n\alpha_i-w^*\sum\limits_{i=1}^n\alpha_ix_iy_i-b^*\sum\limits_{i=1}^n\alpha_iy_i\\=&-\frac{1}{2}w^{*2}+\sum\limits_{i=1}^n\alpha_i\end{aligned}$ 因此，对偶问题可改写为: $\begin{aligned}&\max_{\alpha,\mu}\min_{w^*,b^*,\xi^*}L(w^*,b^*,\xi^*,\alpha,\mu)\\&=\min_{C\ge\alpha_i\ge0,\mu_i=C-\alpha_i}\frac{1}{2}\sum\limits_{i=1}^n\sum\limits_{j=1}^n\alpha_i\alpha_jy_iy_j(x_ix_j)-\sum\limits_{i=1}^n\alpha_i\end{aligned}$ 这是个典型的二次规划问题，可求解最优的 $\alpha_i$ ，从而得到： $w^*=\sum\limits_{i=1}^n \alpha_ix_iy_i$ 至于如何求得最优的 $b^*$ ，可观察两个对偶互补条件 $\begin{aligned}& \mu_i\xi_i^*=0\\&\alpha_i(1-\xi_i^*-y_i(w^*x_i+b^*))=0\end{aligned}$ 若取某个点 $k$ ，其满足 $0<\alpha_k<C$ ，则 $0<\mu_k=C-\alpha_k<C$ ，此时 $\xi_k^*=0$ ，这意味着分隔面能够争取分类（无须添加额外的松弛项 $\xi$ ），所以： $b^*=y_k-w^*x_k$ 最终用于判断新样本点分类的函数可表示为： $sign(\sum\limits_{i=1}^n \alpha_iy_i(x_i*x)+b^*)$
上述最优解，与线性可分的SVM结果非常类似，只是由于引入了软间隔参数 $\xi$ ，所以对偶问题参数 $\alpha$ 不光需要大于0，还受到上限 $C$ 的约束。
同样的，通过引入核技巧，上述推导可拓展到非线性特征空间内SVM问题。

三、接近线性可分的SVM中的三类点

基于接近线性可分的SVM对偶问题中的松弛条件，可判断数据点和分隔超平面的三种关系：
$\begin{aligned}& \mu_i\xi_i=0\\&\alpha_i(1-\xi_i-y_i(wx_i+b))=0\end{aligned}$
在这里插入图片描述
（1） $\alpha_i=0,\mu_i=C,\xi_i=0,y_i(wx_i+b)\ge1$ 。对应于分隔争取的远离软间隔区域内的点，如上图中的判断争取的“x”和“o”
（2） $C>\alpha_i>0,C>\mu_i>0,\xi_i=0,y_i(wx_i+b)=1$ 。软间隔线上的点，如上图中的方框点。
（3） $\alpha_i=C,\mu_i=0,\xi_i>0,y_i(wx_i+b)=1-\xi_i$ 。分隔错误的点，如上图中三角形内点。
这意味着 $\alpha_i$ 的取值范围决定了数据点与分隔面的空间关系。