线性SVM与软间隔最大化

最新推荐文章于 2023-09-25 15:03:56 发布

浅梦s

最新推荐文章于 2023-09-25 15:03:56 发布

阅读量2.5k

点赞数

分类专栏： # SVM 机器学习

本文链接：https://blog.csdn.net/u012151283/article/details/77539922

版权

本文详细介绍了线性支持向量机（SVM）的原理，包括松弛变量和惩罚代价的概念，如何通过引入松弛变量解决线性不可分问题。接着，探讨了线性SVM的原始问题及对偶问题，特别是拉格朗日函数和拉格朗日对偶问题。还阐述了支持向量的重要角色以及合页损失函数的作用，展示了SVM如何在保证间隔最大化的同时减少误分类点。

摘要由CSDN通过智能技术生成

线性支持向量机

松弛变量和惩罚代价

线性不可分意味着某些样本点 $(x_i,y_i)$ 不能满足函数间隔大于等于1的约束条件。可以对每个样本点 $(x_i,y_i)$ 引入一个松弛变量 $\xi_i\ge0$ ，使函数间隔加上松弛变量大于等于1.这样，约束条件变为
$y_i(w_i\cdot x_i+b)\ge1-\xi_i$
同时，对每个松弛变量 $\xi_i$ ，支付一个代价 $\xi_i$ ，目标函数变成
$\frac{1}{2}||w||^2+C\sum\limits_{i=1}^N\xi_i\text{ (7.31)}$
这里C>0称为惩罚参数，C较大对误分类惩罚增大。最小化
目标函数(7.31)包含两层含义：使间隔尽量大，同时使得误分类点个数尽量少。

原始问题

线性不可分支持向量机的学习问题变成如下凸二次规划问题（原始问题）

min w, b, ξ 1 2 | | w | | 2 + C \sum i = 1 N ξ i (7.32) s . t . y i (w \cdot x i + b) \geq 1 - ξ i, i = 1, . . ., N (7.33) ξ i \geq 0, i = 1, . . . N (7.33)

$\begin{align*} \min\limits_{w,b,\xi}\frac{1}{2}||w||^2+C\sum\limits_{i=1}^N\xi_i\text{(7.32)}\\ s.t.y_i(w\cdot x_i+b)\ge1-\xi_i,i=1,...,N\text{(7.33)}\\ \xi_i\ge0,i=1,...N\text{(7.33)} \end{align*}$
原始问题(7.32)-(7.34)是一个凸二次规划问题。可以证明w的解是唯一的，但b的解可能不唯一，而是存在于一个区间。

学习的对偶算法

对偶问题

原始问题(7.32)-(7.34)的对偶问题是

min a 1 2 \sum i = 1 N \sum j = 1 N a i a j y i y j (x i \cdot x j) - \sum i = 1 N a i (7.37) s . t . \sum i = 1 N a i y i = 0 (7.38) 0 \leq a i \leq C, i = 1, . . ., N (7.39)

$\begin{align*} \min\limits_a\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^Na_ia_jy_iy_j(x_i\cdot x_j)-\sum\limits_{i=1}^Na_i\text{(7.37)}\\ s.t. \sum\limits_{i=1}^Na_iy_i=0\text{(7.38)}\\ 0\le a_i\le C,i=1,...,N\text{(7.39)} \end{align*}$