机器学习——SVM预备知识拉格朗日对偶推导与证明

最新推荐文章于 2022-04-06 21:48:18 发布

菜到怀疑人生

最新推荐文章于 2022-04-06 21:48:18 发布

阅读量1.2k

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/dhaiuda/article/details/86321468

版权

机器学习专栏收录该内容

18 篇文章 5 订阅

订阅专栏

以下内容均为个人理解，如有错误，欢迎指出

文章目录

问题描述
解决方法
参考资料

以下内容在周志华老师《机器学习》的基础上加以理解而成，首先先明白，SVM之所以引入拉格朗日对偶，是为了降低算法复杂度，并且引入核函数时，在数学上更加自然

问题描述

考虑具有m个等式约束和n个不等式约束，可行域D非空的优化问题
$\min \limits_{x}f(x)\\ s.t \ \ h_i(x)=0\ (i=1,2,....,m)\\ g_j(x)\leq0\ (j=1,2,......n)$

以下表述中,用原问题来表示上述问题，不等约束指 $h_i(x)=0\ (i=1,2,....,m)\\ g_j(x)\leq0\ (j=1,2,......n)$

解决方法

我们借用拉格朗日乘子法的表达式
$L(x,\lambda,\mu)=f(x)+\sum_{i=1}^m\mu_ig_i(x)+\sum_{i=1}^n\beta_ih_i(x) （式1.0）$
对于满足原问题不等式约束的 $x$ 来说，对任意的 $\mu\geq0$ $\sum_{i=1}^m\mu_ig_i(x)+\sum_{i=1}^n\beta_ih_i(x)\leq 0$
则对于可行域中任意 $x$ 来说，用 $\mu$ 表示 $\mu_1,\mu_2,...,\mu_n$ ， $\beta$ 表示 $\beta_1,\beta_2,....,\beta_m$ ，有 $L(x,\mu,\beta)\leq f(x)$
设 $\hat x$ 为原问题的解对应的自变量取值，进而有 $\min \limits_{x}L(x,\mu,\beta)\leq L(\hat x,\mu,\beta)\leq f(\hat x)\Rightarrow \min \limits_{x}L(x,\mu,\beta)\leq f(\hat x)（式1.1）$

上述不等式里的 $x$ 即使不满足不等式约束，上述不等式也成立，到这里，我们把原问题中的不等式约束全部丢掉了，只剩下 $\mu \geq 0$ 这一个约束

现在我们有一个想法，假设存在 $(x、\mu、\beta)$ 使得式1.1的等号成立，此时 $\min \limits_{x}L(x,\mu,\beta)$ 的取值不就是原问题的最小值了吗？然后通过某些方式求出 $\hat x$ ，原问题不就解决了吗？现在我们想想，什么情况下，式1.1的等号最有可能成立。观察 $\min \limits_{x}L(x,\mu,\beta)$ ，我们可以得知以下两点：

1、 $\min \limits_{x}L(x,\mu,\beta)$ 其实是关于 $\beta$ , $\mu$ 的函数，通过把 $\beta、\mu$ 看成常数，求解该函数的最小值，此时 $x$ 的取值可以表示为 $\beta、\mu$ 的某个组合形式，接着将这个组合形式代入 $L(x,\mu,\beta)$ ，即可求得 $\min \limits_{x}L(x,\mu,\beta)$
2、式1.1对于可行域中的任意 $x$ ，对于任意 $\mu \geq 0$ 均成立，所以 $\max \limits_{\lambda,\mu} [\min \limits_{x}L(x,\mu,\beta)] \leq f(\hat x)（式1.2）$

因此，当 $\min \limits_{x}L(x,\beta,\mu)$ 取值最大时，等号最有可能成立，即 $\max \limits_{\mu,\beta} [\min \limits_{x}L(x,\mu,\beta)]\ s.t (\mu \geq 0)（式1.3）$

接下来，我们想通过添加某些条件，使得式1.2等号成立

添加的条件

假设2.0： $f(w),g_i(w)$ 都是凸函数， $h_j(w)$ 是仿射函数（y=Ax+b），并且满足Slater条件的基础上，式1.1的等号成立

Slater条件

Slater条件是指，函数的可行域中存在一点 $x^{'}$ 同时满足
$\left\{ \begin{aligned} &g_i(x) <0 i=1,2.....,n\\ &h_j(x) =0 j=1,2.....,n \end{aligned} \right.$

接下来，我们将证明满足假设2.0的情况下，式1.2的等号成立

证明过程

以下内容整合自期末考试求过

预备知识

凸集：凸集是对于集合内的每一对点，连接该对点的直线段上的每个点也在该集合内

支撑超平面定理：设集合C是 $R_n$ 空间中的闭凸集， $\hat x$ 是C边界上一点，则必存在一个过点 $\hat x$ 的超平面，使得C位于它的一个闭半空间。即存在法向量 $a$ ,使得对于C中任意点 $x$ ，有 $a*x-a*\hat x \geq 0$ ，*是向量点乘
这个定理画成图就是这个样子：

我们定义点集 $G_e$
$G_e=(\mu_1,\mu_2,.....,\mu_n,v_1,v_2,.....,v_m,t)\\ 其中 \left\{ \begin{aligned} &\mu_i \geq g_i(x) i=1,2,3....n \\ &v_j = h_j(x) j=1,2,3....m\\ &t \geq f(x) x \in R^d \end{aligned} \right.$
简化表示为 $G_e={(\mu,v,t):\mu \geq g(w),v=h(w),t \geq f(w),w \in R^d}$
该点集是一个凸集，证明如下

设 $A(\mu_a,v_a,t_a)$ 和 $B(\mu_b,v_b,t_b)$ 是 $G_e$ 内的两个点，则AB连线上的点 $C$ 可表示为 $\leq c \leq 1$ ，则有
$\mu_c=c\mu_a+(1-c)\mu_b\\ v_c=cv_a+(1-c)v_b\\ t_c=ct_a+(1-c)t_b$
接下来，我们只需要证明 $C$ 在 $G_e$ 中即可，即我们需要找到一个点 $x_c$ ，使得点 $C$ 满足 $G_e$ 中的约束条件，我们假设 $x_c=\lambda x_a+(1-\lambda)x_b \ 0 \leq \lambda \leq 1$

对于 $v_c$ ，由于h(x)是一个仿射函数，因此 $v_c=cv_a+(1-c)v_b=ch(x_a)+(1-c)h(x_b)=h(cx_a+(1-c)x_b)=h(x_c)$ 。

对于 $\mu_c$ 和 $v_c$ ，由于 $g (x)$ 和 $h (x)$ 都是凸函数，凸函数满足
$f(\lambda x_1+(1-\lambda) x_2)\leq \lambda f(x_1)+(1-\lambda) f(x_2)$
则有
$\mu_c=c\mu_a+(1-c)\mu_b \geq cg(x_a)+(1-c)g(x_b)\geq g[cx_a+(1-c)x_b]=g(x_c)\\ t_c=ct_a+(1-c)t_b \geq cf(x_a)+(1-c)f(x_b) \geq f[cx_a+(1-c)x_b]=f(x_c)$

由此可知 $G_e$ 里的任意一对点，该对点的直线段上的每个点也在 $G_e$ 内，因此 $G_e$ 是凸集

设 $x^*$ 为f(x)在不等式约束（原问题描述那一节的不等式约束）下的最小值对应的x取值，设 $p^*=f(x^*)$ ，那么 $0,0,p^*)$ 在 $G_e$ 中吗？（为什么选择这个点我也不知道…，总之这个点可以整出结论）

由于 $x^*$ 满足不等式约束（原问题描述那一节的不等式约束），自然满足 $\leq 0、h(x)=0$ ，由于 $P^*$ 是不等式约束下的 $f (x)$ 的最小值，所以 $t=p^* \geq f(x^*)$ ，并且由于对于任意小的正数 $\delta$ ， $(0,0,p^*-\delta) \notin G_e$ ，所以 $0,0,p^*)$ 是一个边界点

好的，这个时候就可以使用支撑超平面定理了，出来吧，支撑超平面定理兽！
在支撑超平面定理的支持下，对于边界点 $0,0,p^*)$ 我们知道必存在一个法向量 $(\alpha_a,\beta_a,\gamma_a)$ ，使得对于 $G_e$ 中的任何一点 $(\mu,v,t)$ ，有 $\alpha_a \mu+\beta_a v+ \gamma_a t \geq \gamma_a p^*$ （式1.4）

为了使上式恒成立， $\alpha_a、\gamma_a$ 必须大于等于0，假设两者中一个小于0，例如 $\alpha<0$ ，固定 $v ， t$ ，则 $\mu$ 可以趋近无穷，此时不等式左边为负无穷，不等式不成立。接下来就是分类讨论啦，出来吧，分类讨论兽!

$\gamma_a > 0$ 的情况
设 $\alpha^*=\alpha_a/\gamma_a \ \ \alpha^* \geq 0$ ， $\beta^*=\beta_a/\gamma_a$ ，则式1.3可化为 $\alpha^*\mu+\beta^*v+t \geq p^*$ ，当 $\mu=g(x），v=h(x)，t=f(x)$ 时(这里偷懒一下，本来是要展开来写的)，将其展开，即为 $L(x,\alpha^*,\beta^*)=f(x)+\sum_{i=1}^m\alpha_i^*g_i(x)+\sum_{i=1}^n\beta_i^*h_i(x) \geq p^*$ ，该不等式对于任意的x均成立，自然有 $\min \limits_{x}L(x,\alpha^*,\beta^*) \geq p^*$ ，因此
$\max \limits_{\alpha\geq0,\beta}\min \limits_{x}L(x,\alpha,\beta)\geq \min \limits_{x}L(x,\alpha^*,\beta^*) \geq p^*$ (注意 $\alpha^*,\beta^*$ 是具体值，而 $\alpha,\beta$ 是变量，由前所述我们可以知道 $\min \limits_{x}L(x,\alpha,\beta)$ 是关于 $\alpha、\beta$ 的函数，结合这两点即可理解这个不等式)，由之前的描述可知 $\max \limits_{\alpha\geq0,\beta}\min \limits_{x}L(x,\alpha,\beta) \leq p^*$ （这里改了一下符号而已）,所以 $\max \limits_{\alpha\geq0,\beta}\min \limits_{x}L(x,\alpha,\beta)=p^*$ ，此时式1.2的等号成立
$\gamma_a = 0$ 的情况
其实Slater已经保证了这种情况不会出现
Slater条件保证在可行域内，存在 $x^{'}$ 使得 $g (x^{'}) < 0, h (x^{'}) = 0$ ，针对满足Slater条件的点，我们有 $E = (g (x^{'}), h (x^{'}), f (x^{'}))$ 在 $G_e$ 中（只需将 $G_e$ 中，点应该满足的不等式约束条件取等），同理， $E'=(g(x'+\Delta_g),h(x'),f(x'+\Delta_f))$ 也应该在 $G_e$ 中， $\Delta_g,\Delta_f$ 的取值使得 $E^{'}$ 为 $G_e$ 的内点
由式1.4可得:
$\alpha_ag(x')+\beta_ah(x')+\gamma_af(x')\geq0 (式1.5)$
$\alpha_ag(x'+\Delta_g)+\beta_ah(x')+\gamma_af(x'+\Delta_f)>0 (式1.6)$
由于 $\gamma_a=0，h(x')=0$ 可得 $\alpha_ag(x')\geq0$ ，而 $\alpha_a\geq0$ ， $g (x^{'}) < 0$ ，所以 $\alpha_a=0$ ，这会导致式1.6左边的式子为0，此时出现矛盾，所以 $\gamma_a!=0$

那么到这里，我们可知式1.3的解即为原问题的解，但是我们想更进一步求得自变量的值，那么我们可不可以像之前一样添加某些条件，使得式1.3的解对应的自变量 $x$ 的取值即为原问题解对应的自变量取值呢？由此引出KKT条件。

KKT条件

对于式1.3的变量，KKT条件为: $\left\{ \begin{aligned} &g_i(x) \leq0 & i=1,2.....n\\ &\mu_i \geq0 & i=1,2.....n\\ &\mu_ig_i(x)=0 & i=1,2.....n\\ &h_j(x)=0 &j=1,2.....m\\ &\frac{\partial L(x_k,\mu,\beta)}{\partial x_k}=0 &k=1,2....d \end{aligned} \right.$

假设式1.3的解为 $(x^*,\mu^*,\beta^*)$ ,设原问题的解为 $p^*$ ，若 $x^*$ 满足 $f(x^*)=p^*$ ，则KKT条件的第一个和第三个要求表明 $x^*$ 在原问题的可行域内，KKT条件的第二个要求本身就是式1.3的约束条件，而KKT的第三个与第四个要求满足
$f(x^*)+\sum_{i=1}^m\mu_i^*g_i(x)+\sum_{i=1}^n\beta_i^*h_i(x)=f(x^*)=p^*$
此时式1.3的解即为原问题的解，那么第五个条件是干啥的呢？求解 $\min \limits_{x}L(x,\mu,\beta)$ 时，我们是将 $\mu,\beta$ 看成是常数来求解的，在满足假设2.0的前提下， $L(x,\mu,\beta)$ 是一个关于 $x$ 的凸函数，要求最小，只需对 $x$ 求导并使其值为0，即KKT的最后一个条件，因此，KKT条件融合了使式1.3的解对应的自变量 $x$ 的取值为原问题解对应的自变量取值需要满足的所有条件与处理过程