机器学习笔记——支持向量机（IV）软间隔

最新推荐文章于 2023-12-27 16:37:39 发布

王先生的副业

最新推荐文章于 2023-12-27 16:37:39 发布

阅读量553

点赞数 1

分类专栏：机器学习机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/uncle_gy/article/details/78934770

版权

机器学习同时被 2 个专栏收录

46 篇文章 3 订阅

订阅专栏

机器学习

39 篇文章 5 订阅

订阅专栏

前提

在实际的应用中，训练样本在样本空间或者特征空间中可能很难找到一个合适的核函数使得训练样本在特征空间中线性可分。即使找到了一个合适的核函数使得样本在样本空间中线性可分，我们也无法判断这个结果是不是由于过拟合造成的。

软间隔

硬间隔

所谓硬间隔就是非黑即白，即所有样本都必须划分正确。

软间隔概念

相比于硬间隔，软间隔允许存在灰色地带，也就是允许某些样本不满足约束条件：

y i (w T x i + b) \geq 1.

$y_i\left(\mathbf{w}^T\mathbf{x}_i+b\right)\geq1.$
不过在最大间隔化的同时要求，不满足约束的样本数应该尽可能地少。
于是优化目标函数：

min w, b 1 2 | | w | | 2 + C \sum i = 1 m ℓ f u n c t i o n (y i (w T x i + b) - 1)

$\min_{\mathbf{w},b}\dfrac{1}{2}||\mathbf{w}||^2+C\sum_{i=1}^{m}\ell_{function}\left(y_i\left(\mathbf{w}^T\mathbf{x}_i+b\right)-1\right)$
其中

C>0 $C\gt0$ 是一个常数，
当

C→+∞ $C\rightarrow+\infty$ 则目标函数迫使所有样本都满足约束条件。
当

C=constant $C=constant$ 则目标函数允许一部分地样本不满足约束条件。

ℓfunction $\ell_{function}$ 被称为替代损失函数：

常用的替代损失函数

$0/1$ 损失函数：

ℓ 0 / 1 (z) = {10, i f z < 0;, o t h e r w i s e .

$\ell_{0/1}(z)=\left\{ \begin{aligned} 1&,\mathbb{if}\space z\lt0;\\ 0&,\mathbb{otherwise}.\\ \end{aligned} \right.$

hinge损失：

ℓ h i n g e (z) = max (0, 1 - z)

$\ell_{hinge}(z)=\max(0,1-z)$

指数损失（exponetial loss）:

ℓ exp (z) = exp (- z)

$\ell_{\exp}(z)=\exp(-z)$

对率损失（logistic loss）:

ℓ log (z) = log (1 + exp (- z))

$\ell_{\log}(z)=\log(1+\exp(-z))$

松弛变量和软间隔支持向量机

引入松弛变量 $\varepsilon_i\ge0$ ,于是优化目标函数可以写成：

min w, b, ε i 1 2 | | w | | 2 + C \sum i = 1 m ε i s . t . y i (w T x i + b) \geq 1 - ε i ε i \geq 0

$\min_{\mathbf{w},b,\varepsilon_i}\dfrac{1}{2}||\mathbf{w}||^2+C\sum_{i=1}^{m}\varepsilon_i\\ s.t. \space y_i(\mathbf{w}^T\mathbf{x}_i+b)\ge1-\varepsilon_i\\ \varepsilon_i\ge0\\$
上式就是软间隔支持向量机
上式中每一个样本都有一个对于的松弛变量，以表征该样本不满足约束的程度。

软间隔支持向量机

使用拉格朗日乘子法：

L (w, b, α, ε, μ) = min w, b, ε i 1 2 | | w | | 2 + C \sum i = 1 m ε i + \sum i = 1 m α i (1 - ε i - y i (w T x i + b)) - \sum i = 1 m μ i ε i

$L(\mathbf{w},b,\boldsymbol{\alpha},\boldsymbol{\varepsilon},\boldsymbol{\mu})=\min_{\mathbf{w},b,\varepsilon_i}\dfrac{1}{2}||\mathbf{w}||^2+C\sum_{i=1}^{m}\varepsilon_i+\sum_{i=1}^{m}\alpha_i(1-\varepsilon_i-y_i(\mathbf{w}^T\mathbf{x}_i+b))-\sum_{i=1}^{m}\mu_i\varepsilon_i\\$
其中：

αi≥0,μi≥0 $\alpha_i\ge0,\mu_i\ge0$ 式拉格朗日乘子。
令

L(w,b,α,ε,μ) $L(\mathbf{w},b,\boldsymbol{\alpha},\boldsymbol{\varepsilon},\boldsymbol{\mu})$ 对

w,b,εi $\mathbf{w},b,\varepsilon_i$
偏导为零。

w = \sum i = 1 m α i y i x i 0 = \sum i = 1 m α i y i C = α i + μ i

$\mathbf{w}=\sum_{i=1}^{m}\alpha_iy_i\mathbf{x}_i\\ 0=\sum_{i=1}^{m}\alpha_iy_i\\ C=\alpha_i+\mu_i$
同时得到对偶问题：

max α s . t . \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m α i y i α j y j x T i x j \sum i = 1 m α i y i = 0, 0 \leq α i \leq C, i = 1, 2, \dots, m .

$\begin{aligned} \mathop{\max}_{\alpha}&\sum_{i=1}^{m}\alpha_i-\dfrac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_iy_i\alpha_jy_j\mathbf{x}_i^T\mathbf{x}_j\\ s.t.&\sum_{i=1}^{m}\alpha_iy_i=0,\\ &0\le\alpha_i\le{C},i=1,2,\dots,m.\\ \end{aligned}$

王先生的副业

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记——支持向量机（IV）软间隔

前提在实际的应用中，训练样本在样本空间或者特征空间中可能很难找到一个合适的核函数使得训练样本在特征空间中线性可分。即使找到了一个合适的核函数使得样本在样本空间中线性可分，我们也无法判断这个结果是不是由于过拟合造成的。软间隔硬间隔所谓硬间隔就是非黑即白，即所有样本都必须划分正确。软间隔概念相比于硬间隔，软间隔允许存在灰色地带，也就是允许某些样本不满足约束条件： yi(wTxi+b)≥1.y_i\l
复制链接

扫一扫