支持向量机之一：约束优化问题、硬间隔SVM

Hellsegamosken

已于 2022-10-12 20:08:14 修改

阅读量1k

点赞数 5

分类专栏：学习笔记算法解析文章标签：支持向量机机器学习算法约束优化 SVM

于 2022-10-12 19:23:10 首次发布

本文链接：https://blog.csdn.net/DT_Kang/article/details/127288899

版权

算法解析同时被 2 个专栏收录

53 篇文章 0 订阅

订阅专栏

学习笔记

19 篇文章 0 订阅

订阅专栏

约束优化问题

带约束的优化问题可以描述为以下形式
$\tag{1.1} \begin{aligned} \min_x\ &f(x)\\ s.t.\ &\forall i, g_i(x)\leq 0, \\ &\forall j, h_j(x)=0& \end{aligned}$

称 $f (x)$ 为目标函数， $g_i(x)$ 为不等式约束， $h_j(x)$ 为等式约束。

若目标函数为二次函数，约束全为线性函数，称为二次规划。

若 $f (x)$ 为凸函数， $g_i(x)$ 为凸函数， $h_j(x)$ 为仿射函数，则该问题称为凸优化。注意这里不等式约束 $g_i(x)\leq0$ 则要求 $g_i(x)$ 为凸函数，若 $g_i(x)\geq0$ 则要求为凹函数。对于凸优化问题，全局有唯一的极小值点。

构造拉格朗日函数：
$\tag{1.2} L(x, \lambda, \mu)=f(x)+\sum_i\lambda_ig_i(x) + \sum_j \mu_jh_j(x)$
原问题等价于：
$\tag{1.3} \begin{aligned} \min_x\ &\max_{\lambda, \mu}L(x, \lambda, \mu)\\ s.t.\ &\lambda_i\geq 0 \end{aligned}$
简单理解：如果某个条件不满足，一定可以调整相应的 $\lambda/\mu$ 使得函数值任意大，从而不可能成为最优解；如果所有条件都满足，那么后面两个求和号里的东西都为 0，拉格朗日函数就等于原函数。

这样，我们就把关于 $x$ 的限制给去除掉了。

对于约束优化问题，最优解 $x^*$ 需要满足 KKT 条件:
$\tag{1.4} \left\{ \begin{matrix} \nabla_x L(x^*, \lambda^*,\mu^*)=0\\ \lambda_i^*\geq 0\\ \lambda_ig_i(x^*)=0\\ g_i(x^*)\leq 0 \\h_j=0 \end{matrix} \right.$
对于凸优化问题，这个条件是充要的。

直观解释是：对于某条不等式约束 $i$ ，要么 $\lambda_i=0$ ，表示该限制无用；要么 $\lambda_i> 0$ ，此时有 $g_i(x^*)=0$ ，即最优解在边界上，同时 $f (x)$ 负梯度方向一定与 $g (x)$ 梯度方向相同，即 $\nabla_x L(x^*, \lambda^*,\mu^*)=0$ （否则可以沿着 $g_i(x)=0$ 上的某个方向移动使得函数值减小）。梯度为零也意味着最优解处 $f (x)$ 的梯度方向一定与 $h_j(x)=0$ 的法线方向共线。

几何理解见拉格朗日乘子法和KKT条件 - PilgrimHui - 博客园 (cnblogs.com)

对偶问题

以式 $(1.3)$ 为例，它的对偶问题为
$\tag{2.1} \begin{aligned} \max_{\lambda, \mu}\ &\min_xL(x, \lambda, \mu)\\ s.t.\ &\lambda_i\geq 0 \end{aligned}$

可以发现，原问题是关于 $x$ 的函数，对偶问题是关于 $\lambda, \mu$ 的函数。

对偶问题和原问题有什么关系？首先有弱对偶性，简单来说就是 $\max \min \leq \min \max$ 。

证明：任给 $x^*, \lambda^*, \mu^*$ ，显然有 $\min_x L(x,\lambda^*,\mu^*)\leq L(x^*,\lambda^*,\mu^*)\leq \max_{\lambda,\mu}L(x^*,\lambda,\mu)$ ，故第一项的最大值也小于等于第三项的最小值，得证。容易发现，弱对偶性总是成立的。

但我们想要的是强对偶性，即 $\max \min=\min \max$ ，这样就可以把原问题转化为对偶问题进行求解。

给出 Slater 条件
$\tag{2.2} \exist x\in \text {relint} D\\ s.t.\ \forall i,g_i(x)<0$

其中 relint 表示内点。凸优化 + Slater 条件是对偶关系的充分不必要条件。还有放松的 Slater 条件：只需要校验限制中的非仿射函数。

强对偶关系也可以推导出 KKT 条件，前提是原问题、对偶问题最优解都能取到（一个不能取到的例子是 $\min 1/x,\ s.t.\ x\geq1$ ），下面给出证明：

记原问题最优值为 $p^*$ ，对偶问题最优值为 $d^*$ ，有
$\tag{2.3} \begin{aligned} d^*&=\max_{\lambda, \mu}\min_xL(x, \lambda, \mu)\\ &=\min_xL(x,\lambda^*,\mu^*)\\ &\leq L(x^*,\lambda^*,\mu^*)\\ &=f(x^*)+\sum_i\lambda_ig_i(x^*) + \sum_j \mu_jh_j(x^*)\\ &=f(x^*)+\sum_i\lambda_ig_i(x^*)\\ &\leq f(x^*)\\ &=p^* \end{aligned}$
要满足强对偶关系，当且仅当两个不等号同时取等。第一个不等号取等推出偏导为零 $\nabla_x L(x^*, \lambda^*,\mu^*)=0$ ，第二个不等号取等推出松弛互补条件 $\lambda_ig_i=0$ 。KKT 条件的其他三条就是原本或我们引入的限制。

对于强对偶性和 KKT 条件的要求和关系，详见 KKT条件在使用的时候有什么要求吗？是否要求强对偶 - 知乎

对偶关系集合解释详见机器学习-支持向量机6-约束优化问题-对偶关系的几何解释_哔哩哔哩_bilibili

硬间隔SVM

对于线性可分的 n 个样本点 $x_i, y_i)$ ， $x_i$ 为坐标， $y_i$ 为标签（1 或 -1）。要找到一个超平面 $w^Tx+b=0$ 区分两类数据，并且使该超平面到数据点集的最小距离最大，即要求：

$\tag{3.1} \begin{aligned} \max_{w,b}\ &\min_i \frac{{|w^Tx_i+b|}}{\|w\|}\\ s.t.\ &y_i(w^Tx_i+b)>0 \end{aligned}$
如果 $w, b$ 对应的超平面能够正确分类，那么同时将他们缩放一定倍数一定能够使得 $min y_i(w^Tx_i+b)= 1$ 成立。因此原问题也等价于
$\tag{3.2} \begin{aligned} \max_{w,b}\ &\min_i \frac{{|w^Tx_i+b|}}{\|w\|}\\ s.t.\ &\min y_i(w^Tx_i+b)=1 \end{aligned}$
化简一下目标
$\tag{3.3} \max_{w,b} \min_i \frac{{|w^Tx_i+b|}}{\|w\|} \iff \max_{w,b} \frac{1}{\|w\|}\min_i y_i(w^Tx_i+b) \iff \max_{w,b} \frac{1}{\|w\|} \iff \min_{w,b} \frac12 w^Tw$
因此原问题化为
$\tag{3.4} \begin{aligned} \min_{w,b}\ &\frac12 w^Tw\\ s.t.\ &\min y_i(w^Tx_i+b)=1 \end{aligned}$
其实可以再进一步
$\tag{3.5} \begin{aligned} \min_{w,b}\ &\frac12 w^Tw\\ s.t.\ &y_i(w^Tx_i+b)\geq 1 \end{aligned}$
解释一下这一步等价的原因。如果求得解 $min y_i(w^Tx_i+b)=k>1$ ，那么有 $\min y_i((\frac{w}{k})^Tx_i+\frac{b}{k})=1$ ，且 $(\frac w k)^T(\frac w k) < w^Tw$ 。因此 $w, b$ 肯定不是最优解。故这一步是在我们最优化目标下才成立的。

得到 SVM 的基本型：
$\tag{3.6} \begin{aligned} \min_{w,b}\ &\frac12 w^Tw\\ s.t.\ &1- y_i(w^Tx_i+b)\leq 0 \end{aligned}$

模型求解

式 $(3.6)$ 是一个凸优化问题，其实可以直接求解。但我们有更高效的方法。

既然这是带约束的问题，首先写出拉格朗日函数
$\tag{4.1} L(w,b,\lambda)=\frac 1 2 w^Tw + \sum_i \lambda_i(1-y_i(w^Tx_i+b))\\$

将其转化为对 $w, b$ 无约束的问题
$\tag{4.2} \begin{aligned} \min_{w,b}\ &\max_\lambda L(w, b, \lambda)\\ s.t.\ &\lambda_i \geq 0 \end{aligned}$

对偶问题为
$\tag{4.3} \begin{aligned} \max_\lambda\ &\min_{w,b}L(w, b, \lambda)\\ s.t.\ &\lambda_i \geq 0 \end{aligned}$

我们要优化的目标是个凸函数，约束是线性的（满足放松的 Slater 条件），满足强对偶。

转化为对偶问题的好处是，内层对 $w, b$ 是无限制的，可以求偏导来找到最优解。
$\tag{4.4} \frac{\partial L}{\partial b}\triangleq0\Rightarrow \sum_i \lambda_iy_i = 0$
代入 $(4.1)$
$\tag{4.5} L(w,b^*,\lambda)=\frac 1 2 w^Tw+\sum_i \lambda_i - \sum_i\lambda_iy_iw^Tx_i$

对 $w$ 求偏导
$\tag{4.6} \frac{\partial L}{\partial w}= w - \sum_i\lambda_i y_ix_i\triangleq0\Rightarrow w^*=\sum_i\lambda_i y_ix_i$

再代入 $(4.5)$
$\tag{4.7} \begin{aligned} L(w^*,b^*,\lambda)&=\frac 1 2 \bigg( \sum_i\lambda_iy_ix_i \bigg)^T\bigg( \sum_i\lambda_iy_ix_i \bigg)+\sum_i\lambda_i-\sum_i\lambda_iy_i\bigg( \sum_j\lambda_jy_jx_j \bigg)^Tx_i\\ &=-\frac 1 2 \sum_i\sum_j\lambda_i\lambda_jy_iy_jx_i^Tx_j+\sum_i\lambda_i \end{aligned}$
最终可以化为
$\tag{4.8} \begin{aligned} \min_\lambda\ &\frac 1 2 \sum_i\sum_j\lambda_i \lambda_jy_iy_jx_i^Tx_j-\sum_i\lambda_i\\ s.t.\ &\sum_i \lambda_iy_i = 0,\\ &\lambda_i \geq 0\\ \end{aligned}$

求解这个问题得到 $\lambda$ ，就可以带入式 $(4.6)$ 得到 $w^*$ 。

上面提到的，满足强对偶性的问题最优解满足 KKT 条件，即
$\tag{4.9} \lambda_i^*(1-y_i((w^*)^Tx_i+b^*))=0$
若 $\lambda_i^*=0$ ，该样本无关紧要；若 $\lambda_i^*>0$ ，有 $y_i((w^*)^Tx_i+b^*)=1$ ，即该样本点在最大间隔边界上，称其为支持向量。这就是支持向量机名字的由来。一般情况下，我们得到的模型和大部分不在边界的点是没有关系的，因此鲁棒性较强。

设有支持向量 $x_k,y_k)$ 满足 $y_k((w^*)^Tx_k+b^*)=1$ ，即
$\tag{4.10} b^*=y_k-(w^*)^Tx_k$
这样也能求出 $b^*$ ，也就找到了最优超平面。

最后一个问题就是怎么求解 $\lambda$ ？通常使用序列最小优化算法（Sequential Minimal Optimization, SMO）。该算法不断执行如下两个步骤直至收敛：

选取一对需要更新的 $\lambda_i, \lambda_j$
固定其余参数，优化目标函数

发现这个过程很类似于坐标上升算法，即每次通过更新多元函数中的一维，经过多次迭代直到收敛。由于目标函数是凸的，SMO 得到的的一定是全局最优解。

Hellsegamosken

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
支持向量机之一：约束优化问题、硬间隔SVM

带约束的优化问题可以描述为以下形式min⁡x f(x)s.t. ∀i,gi(x)≤0,∀j,hj(x)=0(1.1)\tag{1.1}\begin{aligned}\min_x\ &f(x)\\s.t.\ &\forall i, g_i(x)\leq 0,\\ &\forall j, h_j(x)=0&\end{aligned}xmin s.t. f(x)∀i,gi(x)≤0,∀j,hj(x)=0(1.1)称 f(x)f(x)f(x) 为目标函数，gi(x)g_i(x)gi(
复制链接

扫一扫