SVM——（六）软间隔目标函数求解

最新推荐文章于 2024-04-20 23:16:41 发布

空字符（公众号：月来客栈）

最新推荐文章于 2024-04-20 23:16:41 发布

阅读量3.3k

点赞数 5

分类专栏：机器学习文章标签：函数 svm 软间隔

本文链接：https://blog.csdn.net/the_lastest/article/details/78574813

版权

本文介绍了支持向量机（SVM）中的软间隔概念，以解决线性不可分数据集的问题。软间隔允许一定数量的错分样本，以避免过拟合。通过引入松弛变量ξ和惩罚参数C，调整模型对误分类的容忍度。目标函数通过最大化间隔和限制误分类点的数量来优化。最后，文章提到了二次规划问题和SMO算法作为求解方法，但未详述。

摘要由CSDN通过智能技术生成

1.什么是软间隔

我们之前谈到过两种情况下的分类：一种是直接线性可分的；另外一种是通过 $\phi(x)$ 映射到高维空间之后“线性可分”的。为什么后面这个“线性可分”要加上引号呢？这是因为在上一篇文章中有一件事没有和大家交代：虽然通过映射到高维空间的方式能够很大程度上使得原先线性不可分的数据集线性可分，但是我们并不能够一定保证它就是线性可分的，可能这个高维空间依旧线性不可分得换一个（事实上你还是不知道换哪一个更好，所以此时就要折中选择），或者保守的说即使线性可分了，但也可能会有过拟合现象。这是因为超平面对于异常点（outlier)过于敏感。如下图：

这里写图片描述

在左图，直线A为该数据集下的最优解；但是，此时若出现一个异常点（中图所示），它将导致分类直线发生剧烈的摆动，虽然最终也达到了将数据集分开的效果，但这显然不是我们希望的。我们将其称之为硬间隔(hard margin)，即不允许出现错分的情况，哪怕导致过拟合。所以，我们所期望的就是图右的这种情况：容许少量的错分，从而得到最优解，而这个容忍的则通过代价函数来调节。或者再极端一点就是，根本找不到超平面将其分开（不过拟合的前提下），必须得错分一些点。此时虚线与实现之间的间隔就称之为软间隔(soft margin)。

2.软间隔最大化

此时我们可以知道，如数据集中出现了异常点，必将导致该异常点的函数间隔小于1。所以，此时引入一个松弛变量( $\xi>0$ )，使得函数加上松弛变量大于等于1.
$y^{(i)}(w^Tx^{(i)}+b)\geq1-\xi_i\tag {2.1}$
那么此时的目标函数可以重新改写为如下形式：

$\begin{aligned} \min_{w,b,\xi} &\frac{1}{2}{||w||^2}+C\sum_{i=1}^m\xi_i\\[1ex] s.t.\;\;&y^{(i)}\large(w^Tx^{(i)}+b)\geq1-\xi_i,i=1,2,...m\\[1ex] &\xi_i\geq0,i=1,2,...m\tag{2.2} \end{aligned}$

其中 $C > 0$ 称为惩罚参数，一般由应用问题决定， $C$ 越大时对误分类的惩罚越大.最小化目标函数(2.2)包含两层含义：使 $\frac{1}{2}||w||^2$ 尽量小，即间隔尽量打，同时使误分类点的个数尽量小，C是调和二者的系数。并且只要错分一个样本点，我们都将付出 $C\xi_i$ 的代价。

如先前一样，我们可以将其对应的广义拉格朗日函数写出：
$\mathcal{L}(w,b,\xi,\alpha,r)=\frac{1}{2}w^Tw+C\sum_{i=1}^{m}\xi_i-\sum_{i=1}^m\alpha_i\left[y^{(i)}\left(w^Tx^{(i)}+b\right)-1+\xi_i\right]-\sum_{i=1}^mr_i\xi_i\tag{2.3}$

其中， $\alpha_i\geq0,r_i\geq0$ 是拉格朗日乘数(为什么有这个条件，参见此文3.1)

则其对偶问题为：
$\begin{aligned} \max_{\alpha} &W(\alpha)=\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i,j=1}^my^{(i)}y^{(j)}\alpha_i\alpha_j\langle x^{(i)},x^{(j)}\rangle\\[1ex] s.t. &0\leq\alpha_i\leq C,i=1,...,m\\[1ex] &\sum_{i=1}^m\alpha_iy^{(i)}=0\tag{2.4} \end{aligned}$