支持向量机 - 软间隔最大化

最新推荐文章于 2024-03-04 18:43:35 发布

予亭

最新推荐文章于 2024-03-04 18:43:35 发布

阅读量410

点赞数

分类专栏：机器学习文章标签：支持向量机 svm

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/randompeople/article/details/104031825

版权

机器学习专栏收录该内容

30 篇文章 0 订阅

订阅专栏

前言

之前写的一偏文章主要是SVM的硬间隔，结合SVM拉格朗日对偶问题可以求解得到空间最大超平面，但是如果样本中与较多的异常点，可能对样本较敏感，不利于模型泛化，于是有了软间隔的支持向量机形式，本文来了解一下此问题。

软间隔最大化

引入松弛变量，使得一部分异常数据也可以满足约束条件： $y_i(x_i+b) >=1 - \varepsilon_i$ ，既然约束条件引入了松弛变量，那么点到超平面的距离是不是也要改变，于是调整为：
$\min \quad \frac{1}{2} ||w||^2+C\sum_{i}^{N}\varepsilon_i \\ s.t. \quad y_i(x_i+b) \ge 1 - \varepsilon_i \qquad \text{i=1,2...,n}\\ \varepsilon_i \ge 0$

C：表示惩罚因子，这个值大小表示对误分类数据集的惩罚，调和最大间距和误分类点个数之间的关系。
$\varepsilon_i$ ：也作为代价。

这也是一个凸二次规划问题，可以求解得到 $w$ ，但b的求解是一个区间范围，让我们来看看是怎么回事，求解流程跟硬间隔没差别，直接得到拉格朗日对偶问题：

$\max_{a_i>0,\mu>0} \min_{w_i,b,\varepsilon} \quad L(w,b,\varepsilon,a,\mu)= \frac{1}{2} ||w||^2+C\sum_{i}^{N}\varepsilon_i+\sum_{i=1}^{N}a_{i}[1-y_i(wx_i+b)+\varepsilon_i]+\sum_{i}^{N} \mu_i \varepsilon_i$
继续按照流程走：

对w、b、 $\varepsilon$ 求偏导，让偏导等于0，结果为：
$\sum_{i}a_iy_ix_i \\ \sum_{i}a_iy_i = 0 \\ C-a_i-u_i =0$
代入上面的方程得到：

$\max_{a_i>0,\mu>0} \quad L(w,b,\varepsilon,a,\mu) = -\frac{1}{2}\sum_{i} \sum_{j}a_{i}a_{j}y_{i}y_{j}(x_i * x_j) + \sum_{i}a_i \\ s.t. \quad \sum_{i}^{N}a_iy_i=0 \\ \quad 0\le a_i\le C$
去掉符号，将max 转换为 min ：
$\min_{a_i>0,\mu>0} \quad L(w,b,\varepsilon,a,\mu) = \frac{1}{2}\sum_{i} \sum_{j}a_{i}a_{j}y_{i}y_{j}(x_i * x_j) - \sum_{i}a_i \\ s.t. \quad \sum_{i}^{N}a_iy_i=0 \\ \quad 0\le a_i\le C$
这里代入之后就只有一个因子 $a_i$ ，对此方程求解 $a_i$

w、b:
$\sum_{i}a_iy_ix_i \\$
b的计算就需要思考了，选取满足 $\quad 0\le a_i\le C$ 的 $a_i$ ，利用这些点来求解b：
$y_j-\sum_{i}a_iy_i(x_i*x_j)$
当然符合这个条件的也不只有一个，存在多个条件。求解平均值作为一个唯一值。
超平面
$y = w x + b$

和上一篇的硬间隔最大化的线性可分SVM相比，多了一个约束条件： $0\le a_i \le C$ 。

参考博客

统计学习基础

予亭

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
支持向量机 - 软间隔最大化

前言之前写的一偏文章主要是SVM的硬间隔，结合SVM拉格朗日对偶问题可以求解得到空间最大超平面，但是如果样本中与较多的异常点，可能对样本较敏感，不利于模型泛化，于是有了软间隔的支持向量机形式，本文来了解一下此问题。软间隔最大化引入松弛变量，使得一部分异常数据也可以满足约束条件：yi(xi+b)>=1−εiy_i(x_i+b) >=1 - \varepsilon_iyi(xi+...
复制链接

扫一扫

专栏目录