（《机器学习》完整版系列）第6章支持向量机SVM——6.4 软间隔与正则化、支持向量回归

人工干智能

已于 2023-03-31 10:29:58 修改

阅读量206

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：支持向量机回归机器学习算法人工智能

于 2023-02-24 19:19:22 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129206748

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 26 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

【西瓜书图6.2】所示的“边界清晰”的情况称为“硬间隔”，它要求所有样本均满足约束【西瓜书式(6.3)】，而【西瓜书图6.4】所示的是“边界不清晰”的情况，称为“软间隔”。
使用“松驰变量”方法后，“软间隔支持向量机”的求解过程与解“SVM基本型”相同。
回归问题中的 $y$ 对应一个 $y$ 轴，支持向量回归（SVR）完全仿照软间隔支持向量机的推导。

软间隔与正则化

损失函数

【西瓜书图6.2】所示的“边界清晰”的情况称为“硬间隔”，它要求所有样本均满足约束【西瓜书式(6.3)】，而【西瓜书图6.4】所示的是“边界不清晰”的情况，称为“软间隔”，即
$\begin{align} \begin{cases} \ y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b)-1\geqslant 0 \qquad\text{对绝大多数样本} \\ \ y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b)-1< 0 \qquad\text{对极少数样本} \\ \end{cases} \tag{6.14} \end{align}$

显然，需要对“绝大多数”和“少数”进行量化，可用“0/1损失函数”【西瓜书式(6.30)】进行度量，由式(6.14)知总损失为
$\begin{align} \sum_{i=1}^m {\ell}_{0/1} (y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b)-1) \tag{6.15} \end{align}$

再配上惩罚度 $C$ 进行正则化，则得到优化目标【西瓜书式(6.29)】。

然而， ${\ell}_{0/1}$ 的数学性质不好，需要寻找数学性质好的“替代损失”函数，如，【西瓜书式(6.31) $\,\thicksim$ (6.33)】。从图像【西瓜书图6.5】\footnote{比较三组图非常有意思：（1）【西瓜书图3.2】：逻辑回归（对数几率回归）是用线性回归模型产生一个S曲线，然后将其折断变为二值（0/1）预测；（2）【西瓜书图5.2】：我们需要具备“抑制”和“兴奋”两状态的神经元，以连续的S型状态的神经元替代；（3）【西瓜书图6.5】：我们需要一个二值（0/1）损失函数，而找数学性质好的函数去替代它。前两者是用对称的S曲线表示两端的对称地位，而（3）中的替代函数并不要求对称，因为，它是计量损失的函数，所以，对右侧“开放”，对左侧设界是合理的。 }
上看，这些替代函数好像与 ${\ell}_{0/1}$ 相差太大，注意到我们这里的特点是“绝大多数”和“极少数”，因此，只要【西瓜书图6.5】右侧足够接近即可，放弃左侧的逼近。如，hinge损失函数 ${\ell}_{\mathrm{hinge}}(t)=\max(0,1-t)$ 与 ${\ell}_{0/1}(t-1)$ 损失函数右边一致，而左侧相去甚远。

略去（见上篇6.3 松驰变量）细节，我们有如下记忆“松驰变量”方法的公式：
$\begin{align} \sum\max(0,z_i)=\mathop{\min}\limits_{\boldsymbol{\xi}}\sum_{i=1}^m{\xi}_i \quad \quad \mathrm{s.t.}\ z_i\leqslant {\xi}_i \, ,\,{\xi}_i\geqslant 0 %\sum\max(0,z_i)=\sum {\xi}_i\quad \mathrm{s.t.}\quad z_i\geqslant -{\xi}_i ,{\xi}_i\geqslant 0 \tag{6.18} \end{align}$
它将变量 $z_i$ 变松到 ${\xi}_i$ （ $z_i\leqslant {\xi}_i$ ），成了松驰变量 ${\xi}_i$ 。

令 $z_i=1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b)$ ，由于 $\boldsymbol{w},b$ 是参数（变量），故 $z_i$ 为变量，由式(6.18)，以hinge损失函数计算时，总损失式(6.15)变为
$\begin{align} & \sum_{i=1}^m \max (0,1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b))\notag \\ = & \sum_{i=1}^m \max (0,z_i)\notag \\ = & \mathop{\min}\limits_{\boldsymbol{\xi}}\sum_{i=1}^m{\xi}_i \quad \mathrm{s.t.}\quad z_i\leqslant {\xi}_i\, ,\,{\xi}_i\geqslant 0 \quad \text{（由式(6.18)）} \notag \\ = & \mathop{\min}\limits_{\boldsymbol{\xi}}\sum_{i=1}^m{\xi}_i \quad \mathrm{s.t.}\quad 1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b)\leqslant {\xi}_i \, ,\,{\xi}_i\geqslant 0 \tag{6.19} \end{align}$
将总损失式(6.19)代入正则化的目标【西瓜书式(6.34)】，目标变为
$\begin{align} \mathop{\min}\limits_{\boldsymbol{w},b}\quad & \frac{1}{2}{\| \boldsymbol{w}\|}^2+C\sum_{i=1}^m \max (0,1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b))\notag \\ =\mathop{\min}\limits_{\boldsymbol{w},b}\quad & \frac{1}{2}{\| \boldsymbol{w}\|}^2+C\mathop{\min}\limits_{\boldsymbol{\xi}}\sum_{i=1}^m{\xi}_i \quad \text{（由式(6.19)）}\notag \\ =\mathop{\min}\limits_{\boldsymbol{w},b,\boldsymbol{\xi }}\quad & \frac{1}{2}{\| \boldsymbol{w}\|}^2+C\sum_{i=1}^m{\xi }_i\tag{6.20} \\ \mathrm{s.t.}\quad & {\xi }_i\geqslant 0 \notag \\ & y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b)\geqslant 1-{\xi }_i \notag \end{align}$
这即为【西瓜书式(6.35)】，称为“软间隔支持向量机”。 “软间隔支持向量机”的求解过程与解“SVM基本型”相同。

支持向量回归

比较【西瓜书图6.4】与【西瓜书图6.6】的坐标系，回归问题中的 $y$ 对应一个 $y$ 轴，支持向量回归（SVR）完全仿照软间隔支持向量机的推导：

先引入损失函数 ${\ell}_\epsilon (z)$ ，即【西瓜书式(6.44)】。

建立优化目标，即【西瓜书式(6.43)】。其中，总损失为
$\begin{align} & \sum_{i=1}^m{\ell}_{\epsilon }f(\boldsymbol{x}_i-y_i)\notag \\ = & \sum\max(0,|z_i|-\epsilon ),\quad z_i=f(\boldsymbol{x}_i-y_i)\notag \\ = & \sum_{z_i\geqslant 0}\max(0,z_i-\epsilon )+\sum_{z_i\leqslant 0}\max(0,-z_i-\epsilon )\notag \\ = & \sum\max(0,z_i-\epsilon )+\sum\max(0,-z_i-\epsilon )\qquad\text{（扩大范围只增加了0）} \tag{6.21} \end{align}$

再引入松驰变量，由式(6.18)有
$\begin{align} \sum\max(0,z_i-\epsilon ) =\mathop{\min}\limits_{\boldsymbol{\xi}}\sum_{i=1}^m{\xi}_i \quad \mathrm{s.t.}\quad z_i-\epsilon\leqslant {\xi}_i \, ,\,{\xi}_i\geqslant 0 \tag{6.22} \\ \sum\max(0,-z_i-\epsilon ) =\mathop{\min}\limits_{\hat{\boldsymbol{\xi}}}\sum_{i=1}^m{\xi}_i \quad \mathrm{s.t.}\quad -z_i-\epsilon\leqslant \hat{\xi}_i ,\hat{\xi}_i\geqslant 0 \tag{6.23} \end{align}$

将式(6.22)、式(6.23)代入式(6.21) ，再将式(6.21)代入【西瓜书式(6.43)】，即得【西瓜书式(6.45)】，这即为支持向量回归（SVR）的优化目标（主问题），其求解方法同前述。

本文为原创，您可以：

点赞（支持博主）
收藏（待以后看）
转发（他考研或学习，正需要）
评论（或讨论）
引用（支持原创）
不侵权

上一篇：6.3 松驰变量（当搜寻范围扩大时，可能会找到更高的山、更低的谷）
下一篇：6.5 核对率回归和核线性判别分析

人工干智能

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（《机器学习》完整版系列）第6章支持向量机SVM——6.4 软间隔与正则化、支持向量回归

【西瓜书图6.2】所示的“边界清晰”的情况称为“硬间隔”，它要求所有样本均满足约束【西瓜书式(6.3)】，而【西瓜书图6.4】所示的是“边界不清晰”的情况，称为“软间隔”。使用“松驰变量”方法后，“软间隔支持向量机”的求解过程与解“SVM基本型”相同。回归问题中的$y$对应一个$y$轴，支持向量回归（SVR）完全仿照软间隔支持向量机的推导。
复制链接

扫一扫