百面机器学习 #3 经典算法：01-1 线性可分（硬间隔）支撑向量机SVM

最新推荐文章于 2023-12-26 19:00:23 发布

petSym

最新推荐文章于 2023-12-26 19:00:23 发布

阅读量286

点赞数

分类专栏：百面机器学习机器学习数学文章标签：机器学习支持向量机

本文链接：https://blog.csdn.net/petSym/article/details/106735374

版权

机器学习同时被 3 个专栏收录

9 篇文章 0 订阅

订阅专栏

百面机器学习

7 篇文章 0 订阅

订阅专栏

数学

7 篇文章 0 订阅

订阅专栏

文章目录

①从原始问题到对偶问题
②对偶问题的解的形式化简
③从对偶问题的解到原问题的解
④从原问题的解到分离超平面和决策函数、支撑向量

参考李航统计学习方法第7章。

支持向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。

对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类。也就是说，不仅将正负实例点分开，而且对最难分的实例点（离超平面最近的点）也有足够大的确信度将它们分开。这样的超平面应该对未知的新实例有很好的分类预测能力。

可以通过求解对偶问题而得到原始问题的解，进而确定分离超平面和决策函数。

①从原始问题到对偶问题

SVM的原始优化问题：
$\begin{aligned} &\min \limits_{w,b}\frac{1}{2}||w||^2 \\ &\mathrm{s.t.} \quad y_i(w\cdot x_i +b)-1\ge 0,\quad i =1,2,...,N \end{aligned}$
$\Leftrightarrow$ 化成常见的约束为小于号的形式
$\begin{aligned} &\min \limits_{w,b}\frac{1}{2}||w||^2 \\ &\mathrm{s.t.} \quad -y_i(w\cdot x_i +b)+1\le 0,\quad i =1,2,...,N \end{aligned}$

拉格朗日对偶Lagrange duality

原始约束最优化问题
$\begin{aligned} &\min \limits_{x\in \mathrm{R}^n}f(x) \\ &\mathrm{s.t.} \ c_i(x)\le 0,\quad i =1,2,...,k\\ &\quad \ \ \ h_j(x)= 0,\quad j =1,2,...,l\\ \end{aligned}$

拉格朗日函数
$\alpha, \beta)=f(x)+\sum_{i=1}^{k} \alpha_{i} c_{i}(x)+\sum_{j=1}^{l} \beta_{j} h_{j}(x)$
其中 $\alpha_i\ge0$

关于约束参数 $\alpha,\beta$ 的最大化优化函数是 $f (x)$ 的等价形式
$\theta_{P}(x)=\max _{\alpha, \beta: \alpha_{i} \geqslant 0} L(x, \alpha, \beta)$
给定 $x$ ，当存在某个 $i$ 不满足约束条件 $\ c_i(x)\le 0$ 时， $\alpha_i\rightarrow +\infty$ 使得 $\theta_{P}(x)=+\infty$ ；当存在某个 $j$ 不满足约束条件 $h_j(x)= 0$ 时， $\beta_j h_j(x)\rightarrow +\infty$ 使得 $\theta_{P}(x)=+\infty$ ;故只有同时满足两类约束条件，才能使得最优化 $\alpha, \beta)$ 得到最大值 $= f (x)$

广义拉格朗日函数的极小极大问题
$\min\limits_{x}\theta_{P}(x)=\min\limits_{x}\max _{\alpha, \beta: \alpha_{i} \geqslant 0} L(x, \alpha, \beta)$

对偶问题/广义拉格朗日函数的极大极小问题
$\max_{\alpha, \beta: \alpha_{i} \geqslant 0}\theta_{D}(x)=\max_{\alpha, \beta: \alpha_{i} \geqslant 0}\min\limits_{x} L(x, \alpha, \beta)$
其中
$\theta_{D}(x)=\min\limits_{x} L(x, \alpha, \beta)$

拉格朗日函数
$\alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{N} \alpha_{i} y_{i}\left(w \cdot x_{i}+b\right)+\sum_{i=1}^{N} \alpha_{i}$
在svm中，根据拉格朗日对偶性，原始问题的对偶问题是极大极小问题：
$\max _{\alpha} \min _{w, b} L(w, b, \alpha)$

②对偶问题的解的形式化简

以下步骤先把原问题化成对偶问题（对偶变量的）的形式，然后通过解对偶问题，我们可以间接获得原问题的解。

（1）求 $\min \limits_{w, b} L(w, b, \alpha)$
$\begin{aligned} \nabla_{w} L(w, b, \alpha)&=w-\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i}=0 \\ \nabla_{b} L(w, b, \alpha)&=-\sum_{i=1}^{N} \alpha_{i} y_{i}=0 \\ \Rightarrow\\ &w=\sum_{i=1}^{N} \alpha_{i} y_{i} x_{i} \\ &\sum_{i=1}^{N} \alpha_{i} y_{i}=0 \end{aligned}$
求的结果代回L的表达式有
$\begin{aligned} \min \limits_{w, b} L(w, b, \alpha) &=\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum_{i=1}^{N} \alpha_{i} y_{i}\left(\left(\sum_{j=1}^{N} \alpha_{j} y_{j} x_{j}\right) \cdot x_{i}+b\right)+\sum_{i=1}^{N} \alpha_{i} \\ &=-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum_{i=1}^{N} \alpha_{i} \end{aligned}$
（2） $\min \limits_{w, b} L(w, b, \alpha)$ 求对 $\alpha$ 的极大
$\begin{array}{ll} \max \limits_{\alpha} & -\frac{1}{2} \sum\limits_{i=1}^{N} \sum\limits_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)+\sum\limits_{i=1}^{N} \alpha_{i} \\ \text { s.t. } & \sum\limits_{i=1}^{N} \alpha_{i} y_{i}=0 \\ & \alpha_{i} \geqslant 0, \quad i=1,2, \cdots, N \end{array}$
（3）再将对目标函数求极大转换为求极小，最终得到下面与原始优化问题等价的对偶最优化问题：
$\begin{array}{ll} \min \limits_{\alpha} & \frac{1}{2} \sum\limits_{i=1}^{N} \sum\limits_{j=1}^{N} \alpha_{i} \alpha_{j} y_{i} y_{j}\left(x_{i} \cdot x_{j}\right)-\sum\limits_{i=1}^{N} \alpha_{i} \\ \text { s.t. } & \sum\limits_{i=1}^{N} \alpha_{i} y_{i}=0 \\ & \alpha_{i} \geqslant 0, \quad i=1,2, \cdots, N \end{array}$
所以存在 $w^*$ ， $\alpha^*$ ， $b^*$ ，使 $w^*$ , $b^*$ 是原始问题的解， $\alpha^*$ 是对偶问题的解。

③从对偶问题的解到原问题的解

假设求得对偶最优化问题对 $\alpha$ 的解为 $\alpha^*$ ，那么我们可以由按照下式 $\alpha^*$ 求得原始最优化问题的解 $w^*$ ， $b^*$ ：
$\begin{array}{c} w^{*}=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i} \\ b^{*}=y_{j}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x_{i} \cdot x_{j}\right) \end{array}$
证明：

针对对偶问题和原始问题共同的最优解 $w^*,b^*,\alpha^*$ ，对目标函数
$\alpha)=\frac{1}{2}\|w\|^{2}-\sum_{i=1}^{N} \alpha_{i} y_{i}\left(w \cdot x_{i}+b\right)+\sum_{i=1}^{N} \alpha_{i}$
（原问题）根据KKT条件，
$\begin{array}{l} \nabla_{w} L\left(w^{*}, b^{*}, \alpha^{*}\right)=w^{*}-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}=0 \\ \nabla_{b} L\left(w^{*}, b^{*}, \alpha^{*}\right)=-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}=0 \\ \alpha_{i}^{*}\left(-y_{i}\left(w^{*} \cdot x_{i}+b^{*}\right)+1\right)=0, \quad i=1,2, \cdots, N \\ -y_{i}\left(w^{*} \cdot x_{i}+b^{*}\right)+1 \leqslant 0, \quad i=1,2, \cdots, N \\ \alpha_{i}^{*} \geqslant 0, \quad i=1,2, \cdots, N \end{array}$
由第一个式子得 $w^{*}=\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}$

至少有一个（不是要求的，是求解问题的时候，发现至少一个非零才是合理的，否则都为0，根据第一个式子w也为0） $\alpha_j^*>0$ ，任选其一，所以 $y_{j}\left(w^{*} \cdot x_{j}+b^{*}\right)-1=0$

注意到 $y_{j}^{2}=1$ ，联立上述二式得

$b^*=\frac{1}{y_j}-w^*\cdot x_j=y_j-\sum_{i=1}^{N} \alpha_{i}^{*} y_{i} x_{i}x_j$

证毕。

④从原问题的解到分离超平面和决策函数、支撑向量

进一步，分离超平面可以写成
$\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x \cdot x_{i}\right)+b^{*}=0$
分类决策函数可以写成
$f(x)=sign\left(\sum_{i=1}^{N} \alpha_{i}^{*} y_{i}\left(x \cdot x_{i}\right)+b^{*}\right)$
可以看到， $w^*,b^*$ 只依赖于那些 $\alpha_j^*>0$ 的样本，这样的对应的训练样本我们就称之为支撑向量。

对于支撑向量，
$\alpha_{i}^{*}\left(-y_{i}\left(w^{*} \cdot x_{i}+b^{*}\right)+1\right)=0,\alpha_{i}^{*}>0\\ \Rightarrow \\ y_{i}\left(w^{*} \cdot x_{i}+b^{*}\right)+1=0\\ \Rightarrow \\ w^{*} \cdot x_{i}+b^{*}=1\ or -1$
即它一定在边界上!