（《机器学习》完整版系列）第6章支持向量机SVM——6.1 支持向量机SVM的基本型（对偶要KKT条件，不是找对象的条件）

人工干智能

已于 2023-04-12 16:44:12 修改

阅读量202

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：支持向量机机器学习人工智能算法线性代数

于 2023-02-24 12:07:38 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129197658

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 26 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

在属性坐标系中讨论二分类问题：以点表示属性（向量），以点的型状表示类别。
支持向量机SVM的基本型：目标是最大化间隔，涉及较多的数学知识：对偶问题、拉格朗日乘子法、KKT条件、SMO算法、解二次规划。

SVM的基本型

我们讨论过基于属性的坐标系，即样例的标记不纳入坐标系中，而是以点的型状来区分。现在，我们回到这个坐标系中来讨论二分类问题，在这个坐标系中，以点表示属性（向量），以点的型状：“ $+$ ”和“ $-$ ”分别表示正例和反例，即【西瓜书图6.1】。

最大化间隔

【西瓜书图6.1】中所画的线都能将两类分开，直观地看，红线“最好”，问题在于如何找到这条红线。

假定上帝告诉你了红线的位置，你现在分析其特点，这即【西瓜书图6.2】所示。直观上，拿一条棍棒在真空地带摆动，选定一边（如“ $-$ ”边），让棍棒向这边贴近，由两点确定一条直线的原理知，它必受阻于（至少）两点（被带圈的两“ $-$ ”点所阻止），由此确定了一条虚线，将棍棒平行于这条虚线，朝另一边挪，直至受阻于（至少）一点（被带圈的“ $+$ ”点所阻止），由此确定了另一条虚线，两虚线间的中线即为红线。换一下选定边，重复该过程，得到另一组线，显然，二者中应取两虚线间的“间隔”最大者，故找红线的问题转化为找最大“间隔”或者找阻点（带圈的点）。阻点称为支撑向量或叫支持向量，这就是支持向量机（SVM）名称的来历。

设训练集为 $D=\{(x_i,y_i)\}_{i=1}^m,\quad y_i\in\{-1,+1\}$ ，注意：标记选用具有对称性的 ${-1,+1\}$ ，而不用 ${0,1\}$ 。

由对称性【西瓜书图6.2】中三条线的方程分别为
$\begin{align*} & l_1:\qquad \boldsymbol{w}^\mathrm{T}x+b=\zeta \\ & l\ :\qquad \boldsymbol{w}^\mathrm{T}x+b =0 \\ & l_2:\qquad \boldsymbol{w}^\mathrm{T}x+b=-\zeta \end{align*}$

若 $\zeta\neq 1$ ，则对三个方程两边除以 $\zeta$ ，调整系数记号，三条线最终可化为
$\begin{align} & l_1:\qquad \boldsymbol{w}^\mathrm{T}x+b=1 \tag{6.1} \\ & l\ :\qquad \boldsymbol{w}^\mathrm{T}x+b =0 \tag{6.2} \\ & l_2:\qquad \boldsymbol{w}^\mathrm{T}x+b=-1 \tag{6.3} \end{align}$
$l_1$ 与 $l_2$ 继续向外平移，则可用不等式表示：
$\begin{align} & l_1(\mathrm{up}):\qquad \qquad \boldsymbol{w}^\mathrm{T}x+b>1 \tag{6.4} \\ & l_2(\mathrm{down}):\qquad \boldsymbol{w}^\mathrm{T}x+b<-1 \tag{6.5} \end{align}$

由此得到：数据集中的数据满足【西瓜书式(6.3)】。再注意到 $y_i$ 的取值与式子的关系，则两虚线 $l_1,l_2$ 的活动范围（【西瓜书式(6.3)】的两子式）可综合为一个约束式子：
$\begin{align} y_i(\boldsymbol{w}^\mathrm{T}x_i+b)\geqslant 1 \tag{6.6} \end{align}$
再在此约束下使“间隔”【西瓜书式(6.4)】最大化。

【西瓜书式(6.6)】的推导是显而易见的，虽然是基于二维样本（【西瓜书图6.2】）进行推导的，但对于多维仍成立，因为，在推导过程中并没有作二维的限制，多维时，其几何意义从上述“直线”变为“超平面”，故【西瓜书式(6.6)】即为SVM基本型。

另外，要注意预测模型 $f(\boldsymbol{x})=\boldsymbol{w}^\mathrm{T}\boldsymbol{x}+b$ （分类时增加 $y=\mathrm{sgn}(f(\boldsymbol{x}))$ ）与分界线 $\boldsymbol{w}^\mathrm{T}\boldsymbol{x}+b=1$ 的区别与联系：它们分属于不同的坐标系中，但它们的参数 $\boldsymbol{w},b$ 是一致的，SVM是通过着手后者而获得前者需要的参数。

对偶

对偶问题即【西瓜书附录第B.1节】所述，不熟悉拉格朗日乘子法的读者，先移步去了解一下。

通过建立对应关系来学习这部分内容是个不错的方法。

【西瓜书式(6.6)】与【西瓜书附录式(B.4)】的对照关系表6.1。

【西瓜书式(6.8)】与【西瓜书附录式(B.5)】的对照关系表6.2。
在这里插入图片描述

由表6.1及6.2，则对应于【西瓜书附录式(B.6)】得到SVM基本型的KKT条件如下：
$\begin{align} \begin{cases} \ 1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b)\leqslant 0 \\ \ {\alpha}_i\geqslant 0 \\ \ {\alpha}_i(1-y_i(\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b))=0 \\ \end{cases} \tag{6.7} \end{align}$

【西瓜书附录式(B.9)】的左边等式，当可达到下确界 $\inf$ 时，即为 $\min$ ，再结合上述对应关系，这时有表6.3
在这里插入图片描述

SVM基本型主问题【西瓜书式(6.6)】的求解，转化为其对偶问题的求解，由表6.3知优化目标为
$\begin{align} \mathop{\max}\limits_{\boldsymbol{\alpha }}\mathop{\min}\limits_{\boldsymbol{w },b}L(\boldsymbol{w },b,\boldsymbol{\alpha }) \tag{6.8} \end{align}$

在式(6.8)中，我们先求出 $\mathop{\min}\limits_{\boldsymbol{w },b}L(\boldsymbol{w },b,\boldsymbol{\alpha })$ （对偶函数）。

令 $\frac{\partial L}{\partial \boldsymbol{w}}=0$ ，得
$\begin{align*} \boldsymbol{w}^\mathrm{T}=\sum{\alpha }_iy_i{\boldsymbol{x}}_i^\mathrm{T} \end{align*}$
对其转置则得【西瓜书式(6.9)】。

令 $\frac{\partial L}{\partial b}=0$ ，即得【西瓜书式(6.10)】。

将【西瓜书式(6.9)】、【西瓜书式(6.10)】代入【西瓜书式(6.8)】，即得
$\begin{align} \mathop{\min}\limits_{\boldsymbol{w },b}L(\boldsymbol{w },b,\boldsymbol{\alpha }) =\sum_{i=1}^m{\alpha }_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m{\alpha }_i{\alpha }_j{y}_i{y}_j\boldsymbol{x}_i^\mathrm{T}\boldsymbol{x}_j \tag{6.9} \end{align}$

再将式(6.9)代入式(6.8)，即得SVM基本型的对偶问题【西瓜书式(6.11)】，其参数 $\boldsymbol{\alpha }$ 的约束条件源于上述推导过程中引入：拉格朗日乘子 ${\alpha }_i\geqslant 0$ 以及【西瓜书式(6.10)】。

观察式(6.9)，它为一个二次函数（变量为 ${\alpha }_i$ ），化为矩阵形式为

$\begin{align} \text{式(6.9)} & =-\frac{1}{2}\sum_{i=1}^m{\alpha }_i{y}_i\boldsymbol{x}_i^\mathrm{T}\sum_{j=1}^m{\alpha }_j{y}_j\boldsymbol{x}_j +\sum_{i=1}^m{\alpha }_i \notag \\ & =-\frac{1}{2}\boldsymbol{\alpha}^\mathrm{T}([{y}_i\boldsymbol{x}_i^\mathrm{T}]_i)([{y}_j\boldsymbol{x}_j]_j)^\mathrm{T}\boldsymbol{\alpha}+\boldsymbol{1}^\mathrm{T}\boldsymbol{\alpha}\notag \\ & =-\frac{1}{2}\boldsymbol{\alpha}^\mathrm{T}\left([{y}_i\boldsymbol{x}_i^\mathrm{T}{y}_j\boldsymbol{x}_j]_{ij}\right)\boldsymbol{\alpha}+\boldsymbol{1}^\mathrm{T}\boldsymbol{\alpha} \tag{6.10} \end{align}$

由式(6.10)，对偶问题【西瓜书式(6.11)】变为
$\begin{align} \mathop{\min}\limits_{\boldsymbol{\alpha }}\frac{1}{2}\boldsymbol{\alpha}^\mathrm{T}\left([{y}_i\boldsymbol{x}_i^\mathrm{T}{y}_j\boldsymbol{x}_j]_{ij}\right)\boldsymbol{\alpha}-\boldsymbol{1}^\mathrm{T}\boldsymbol{\alpha}\quad \text{（由如下式(0.1)）} \tag{6.11} \end{align}$
用到公式：
$\begin{align} \boldsymbol{a}\boldsymbol{b}^\mathrm{T} & =\left( \left[a_{i}b_{j}\right]_{ij} \right) \tag{0.1} \end{align}$
其中“ $\mathrm{s.t.}$ ”部分的约束条件不变。

比较式(6.11)与【西瓜书附录式(B.12)】知，这是一个二次规划，用二次规划的某种求解方法求出 $\boldsymbol{\alpha}$ ，再由【西瓜书式(6.9)(6.7)】求出 $\boldsymbol{w}$ 和 $b$ ，即得到模型。

SMO算法

现在我们回到SVM基本型的特点上：

1.KKT条件：式(6.7)，经分析可知：最终模型仅与支持向量有关。

2.解二次规划：有坐标下降法【西瓜书附录第B.5节】，在每步迭代中沿一个坐标方向进行搜索，通过反复循环使目标函数走向最小值，就象下山时只走横竖不走斜线（指投影到海平面坐标系中的结果，而坡上都是“斜线”）。注意到【西瓜书式(6.11)】中的约束条件，可以每次选择两个变量 $({\alpha}_i,{\alpha}_j)$ ，这就是高效的SMO算法。

那么，如何选取这两个变量？原则就是：先选取违背KKT条件程度最大的变量，再选取使目标函数增长最快的变量。为减少运算量，变通办法就是：在违背KKT条件下选取两变量使其对应样本之间的间隔最大。

KKT条件（满足式(6.7)的第3式时， $\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b=\pm 1$ 为 $l_1$ 与 $l_2$ ），撑开 $l_1$ 与 $l_2$ 则违背KKT条件，故可将样本限定在撑开的 $l_1$ 与 $l_2$ 上，这时要使样本之间的间隔最大，只需使 $l_1$ 与 $l_2$ 撑到最大，即：计算所有 $\boldsymbol{x}_i$ 对应的 $\boldsymbol{w}^\mathrm{T}\boldsymbol{x}_i+b$ 值，找到最大和最小（即将 $l_1$ 与 $l_2$ 撑到最大），各自分别对应出 $({\alpha}_i$ 和 ${\alpha}_j)$ 。

选取两变量后，通过约束条件消去一个，【西瓜书式(6.11)】变为单变量 ${\alpha}_i$ 的二次规划问题，即求抛物线的顶点，顶点公式即为闭式解。

上述循环直至收敛，则求出了 $\boldsymbol{\alpha}$ ，再由【西瓜书式(6.17)】求 $b$ 。

本文为原创，您可以：

点赞（支持博主）
收藏（待以后看）
转发（他考研或学习，正需要）
评论（或讨论）
引用（支持原创）
不侵权

上一篇：5.4 BP算法的高级表达
下一篇：6.2 核函数型支持向量机SVM（方法：比较基本型来学习）

人工干智能

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（《机器学习》完整版系列）第6章支持向量机SVM——6.1 支持向量机SVM的基本型（对偶要KKT条件，不是找对象的条件）

在属性坐标系中讨论二分类问题：以点表示属性（向量），以点的型状表示类别。支持向量机SVM的基本型：目标是最大化间隔，涉及较多的数学知识：对偶问题、拉格朗日乘子法、KKT条件、SMO算法、解二次规划。
复制链接

扫一扫