通俗讲解支持向量机SVM（三）非线性问题及软间隔之引出

最新推荐文章于 2023-09-25 20:13:09 发布

置顶 TechGuide

最新推荐文章于 2023-09-25 20:13:09 发布

阅读量4.3k

点赞数 5

分类专栏：通俗讲解支持向量机SVM系列文章标签：机器学习人工智能深度学习 python 支持向量机

本文链接：https://blog.csdn.net/weixin_41896265/article/details/105393694

版权

通俗讲解支持向量机SVM系列专栏收录该内容

4 篇文章 14 订阅

订阅专栏

点赞再看，养成习惯，您动动手指对原创作者意义非凡🤝
备战秋招面试微信搜索公众号【TechGuide】关注更多新鲜好文和互联网大厂的笔经面经。
作者@TechGuide

当你的才华还撑不起你的野心时，你应该静下心去学习。

前言

之前两篇文章我们解释了SVM作为线性模型的相关问题（还不理解的朋友可以点击文末链接阅读），如果你已经十分熟悉，那么这篇文章将会有新的内容，是关于SVM如何处理非线性的分类问题。这里我们引入硬间隔（Hard Margin）和软间隔（Soft Margin）的概念,之前我们讨论的分类问题是不允许有任何一个样本点被分类错误的，即间隔内是不能有样本点的，称为硬间隔。而软间隔则与之对应，允许一定量的错误分类，即允许一些样本点在我们“定义”的间隔内分布。

看到这里如果你有疑惑，请继续读下去，以下会有详细的说明。。

何谓非线性问题

前面我们讲到的都是线性可分的样本集，即可以用一条线(或超平面)将样本集划分成两类，但是在处理非线性问题，即不可用一条直线划分的样本集（如下图）时，如果我们想要严格的找到一个超平面分类下图中两种样本点，那么之前的优化问题将会无解，不存在这样的线性分类器。在这里插入图片描述

source:https://blog.csdn.net/guoziqing506/article/details/81120354

但是，如果我们考虑上左图样本点分布会发现，仿佛把“另类”的那个白点分类错（也就是分到黑点样本那一类），得到的分类效果和分类器应该更优，所以在处理一些非线性问题时，我们将划分的标准放宽反而会得到更好的效果，同时也使优化问题有解.

损失函数Hinge Loss的定义

如何放宽呢？我们引入一个损失函数loss，即把原优化问题的目标函数 $\text{Min}\, \frac{1}{2} \omega^T\omega$ 改造为 $\text{Min}\, \frac{1}{2} \omega^T\omega + \text{Loss} \tag 1$ 。这样，我们允许在间隔内有一些样本点和一些错误分类的点，此之谓软间隔(Soft Margin)。
那么如何定义这个损失函数使其有解且能高效分类呢?这里我们有两点想法，最朴素的思想是从分错的点数来定义，分类错一个就增加一点loss，这样我们最小化这个loss就很合理。但是这样定义有一个问题，这样得到的loss函数是一个跳跃函数，非连续函数在优化问题中对求导会存在一些问题，为求简便，我们从距离的角度考虑，即点在间隔外loss为0，点在间隔内（分错的点）依据其与上图中的蓝线距离定义loss，最终得到如下定义：
$Loss=\left\{ \begin{aligned} \text{if} \,y_i(\omega^TX+b) \geq 1,\,& = 0\,;\,\,\,\,\\ \text{if} \,y_i(\omega^TX+b) < 1\,,& = 1- y_i(\omega^TX+b)\, \end{aligned} \right.\tag 2$
以上两式可以简化为 $\text{Max} \left\{0,1- y_i(\omega^TX+b)\right\} \tag 3$
我们把上式即定义为Hinge Loss（外形像合页得名）,可以画出它的图线加强记忆，由下图可以得到，它是一个凸函数，必然有极值。
在这里插入图片描述

改造优化问题及理解

这样我们可以把（1）式（结合（3）式）改为：
$\text{Min}\,\,\,\,\, \frac{1}{2} \omega^T\omega +C\sum_{i=1}^{N}\text{Max} \left\{0,1- y_i(\omega^TX+b)\right\} \tag 4$
但是，有没有觉得式子变得很复杂，不直观？所以我们接下来整理简化一下，引入松弛因子（slack variable） $\zeta_i=1- y_i(\omega^TX+b)$ ,正如前面所说，我们是从距离的角度定义loss的，所以 $\zeta_i \geq 0$ ,它的约束条件相比于原约束问题 $y_i(\omega^TX+b) \geq 1$ 只是加入了松弛因子 $\zeta_i$ ,所以目标函数和约束条件化为：
$\text{Min}\,\,\,\,\, \frac{1}{2} \omega^T\omega +C\sum_{i=1}^{N} \zeta_i \tag 5$
$\text{Subject to:} y_i(\omega^TX+b) \geq 1-\zeta_i,\,\,\,\,\,\zeta_i \geq 0$
这样就得到一个简洁且物理意义明确的形式。

这里我们靴微停下来凝视一下，这个优化问题中如果 $\zeta_i$ 足够大，约束条件肯定满足，那能不能无限大下去呢？不可以，我们目标函数就会最小化这个值 $\zeta_i$ ,同时最大化margin，所以最优解将会得到一个合适的值。这里的 $C\sum_{i=1}^{N} \zeta_i$ 称为正则项（Regularization Term）。C的值是事先由经验确定的，它规定了目标函数值前后两项的比重，需要通过实验找到最适合的值。