『ML笔记』SVM笔记3软间隔手写详细推导

最新推荐文章于 2022-07-19 11:53:15 发布

AI大模型前沿研究

最新推荐文章于 2022-07-19 11:53:15 发布

阅读量2.6k

点赞数 6

分类专栏： Machine Learning学习笔记文章标签： SVM 手写推导软间隔

引用请附上作者博客链接https://zhangkaifang.blog.csdn.net/，谢谢理解！

本文链接：https://blog.csdn.net/abc13526222160/article/details/84983692

版权

Machine Learning学习笔记专栏收录该内容

70 篇文章 35 订阅

订阅专栏

线性可分问题的支持向量机学习方法，对线性不可分训练数据是不适应的，因为这时上一节中不等式约束不能成立，如何扩展到线性不可分问题呢？这就需要修改硬间隔最大化，使其成为软间隔最大化。
通常情况下训练数据中有一些特异的点，将这些特异的点去处后，剩下的样本组成的集合是线性可分的。线性不可分的意思就是某些样本点不能满足函数间隔大于等于1的约束条件。为了解决这个问题，可以对每个样本点 $\left\{x_{i}, y_{i}\right\}$ 引入一个松弛变量 $\xi_{i} \geq 0$ ,使函数间隔加上加上松弛变量大于等于1，这样约束条件变为：

$\large {y}_{i}(w^T x_i+b) \geqslant 1-\xi_{i}$

同时，对每个松弛变量 $\xi_{i}$ ，支付一个代价 $\xi_{i}$ ，目标函数由原来的 $\frac{1}{2}\|w\|^{2}$ 变为：

$\large \frac{1}{2}\|w\|^{2}+C \sum_{i}^{N} \xi_{i}$

将约束项变形： $\xi_{i} \geqslant 1- {y}_{i}(w^T x_i+b)$ ；我们有：

$\large \begin{aligned} J(w) &=\frac{1}{2}\|w\|^{2}+C \sum_{i} \max \left(0,1-{y}_{i}(w^T x_i+b)\right) \\ &=\frac{1}{2}\|w\|^{2}+C \sum_{i} L_{H i n g e}\left(m_{i}\right) \end{aligned}$

其中： $L\left(m_{i}\right)=\max \left(0,1-m_{i}(w)\right)$ ，表示如果被正确分类，损失是0，否则损失就是 $1-m_{i}(w)$ 。
这里的C>0称为惩罚参数（权重），一般由应用问题决定，C值大时对误分类的惩罚增大，C值小时对误分类的惩罚减小。

$\large \begin{array}{cl}{\min _{w, \xi, b}} & {\frac{1}{2} w^{T} w+C \sum_{1}^{N} \xi_{i}} \\ {\text { s.t. }} & {y_{i}\left(w^{T} x_{i}+b\right) \geq 1-\xi i \quad \xi_{i} \geq 0}\end{array}$

我们要求的目标函数的最小值，在引进松弛变量和惩罚参数有两个含义：
①使 $\frac{1}{2}\|w\|^{2}$ 尽量小，也就是间隔尽量大；
②同时使得松弛变量 $\xi_{i}$ 尽量小，也就是误分类的点个数尽量小；

一、下面手推导具体的过程：

注意：惩罚因子C的补充解释：在这里讨论一下惩罚因子C,当C无穷大的时候，会发生什么呢？C无穷大的时候，还要最小化下面式子：

很显然需要下面这一项等于0：

也就是一个样本也不允许出错。所以说C越大，允许出错的样本越小，模型的复杂福越高，越容易过拟合，所以当SVM过拟合的时候，适当减小惩罚因子C,可以减小过拟合问题！

松弛变零的理解可以参考本文：SVM入门（八）松弛变量；下面如若有不对的地方还望指正。

二、综合整理所有：

SVDD的对偶形式：

可以参考下：https://blog.csdn.net/wsp_1138886114/article/details/82459928

AI大模型前沿研究

关注

6
点赞
踩
17

收藏

觉得还不错? 一键收藏
打赏
0
评论
『ML笔记』SVM笔记3软间隔手写详细推导

目录一、下面手推导具体的过程：二、综合整理所有：线性可分问题的支持向量机学习方法，对线性不可分训练数据是不适应的，因为这时上一节中不等式约束不能成立，如何扩展到线性不可分问题呢？这就需要修改硬间隔最大化，使其成为软间隔最大化。通常情况下训练数据中有一些特异的点，将这些特异的点去处后，剩下的样本组成的集合是线性可分的。线性不可分的意思就是某些样本点不能满足函数间隔大于等于1的约束条件...
复制链接

扫一扫