SVM之拉格朗日对偶问题与KKT条件推导

最新推荐文章于 2023-04-24 10:37:15 发布

Alanaker

最新推荐文章于 2023-04-24 10:37:15 发布

阅读量2.4k

点赞数 4

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_30219017/article/details/81223495

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1.线性可分SVM要求解的原始问题
2.对偶问题(dual problem)
- 原始问题最优解与对偶问题最优解的关系
3.KKT条件推导
参考:

原因是学到SVM这里发现这个lagrange dual problem 必须满足 KKT 条件, 于是写下了这篇文章记录这些条件被推出的过程, 本人才疏学浅, 不当之处请尽管指出

1.线性可分SVM要求解的原始问题

目标函数:

f (w) = 1 2 ‖ w ‖ 2 (1)

$f(\mathbf{w}) = \frac{1}{2}\left \| \mathbf{w} \right \| ^2 \tag{1}$
原问题:

min w, b 1 2 ‖ w ‖ 2 s . t . 1 - y i (w T x i + b) \leq 0 i = 1, 2, \dots, N (2)

$\min_{\mathbf{w}, b} \frac{1}{2}\left \| \mathbf{w} \right \| ^2 \\ s.t. \space 1 - y_i(\mathbf{w}^T \mathbf{x_i} + b) \le 0 \quad i=1, 2, \ldots, N \tag{2}$

原问题的拉格朗日函数:

L (w, b, a) = 1 2 ‖ w ‖ 2 + \sum i = 1 N α i (1 - y i (w T x i + b)) s . t . α i \geq 0 i = 1, 2, \dots, N s . t . 1 - y i (w T x i + b) \leq 0 i = 1, 2, \dots, N (3)

$L(\mathbf{w}, b, \mathbf{a}) = \frac{1}{2}\left \| \mathbf{w} \right \| ^2 + \sum_{i=1}^N \alpha_i (1 - y_i(\mathbf{w}^T\mathbf{x_i} + b)) \tag{3} \\ \quad s.t. \space \alpha_i \ge 0 \quad i=1, 2, \ldots, N \\ s.t. \space 1 - y_i(\mathbf{w}^T \mathbf{x_i} + b) \le 0 \quad i=1, 2, \ldots, N$

令:

p (w) = max a L (w, b, a) (4)

$p(\mathbf{w}) = \max_{\mathbf{a}} L(\mathbf{w}, b, \mathbf{a}) \tag{4}$

∵ ∵ $\because$ 若有一个

1−yi(wTxi+b)>0 1 − y i ( w T x i + b ) > 0 $1 - y_i(\mathbf{w}^T \mathbf{x_i} + b) \gt 0$ , 令

αi=∞ α i = ∞ $\alpha_i = \infty$ , 则

L(w,b,a)=∞ L ( w , b , a ) = ∞ $L(\mathbf{w}, b, \mathbf{a}) = \infty$

∴ ∴ $\therefore$ 当所有不等式条件满足时,

p(w)=f(w) p ( w ) = f ( w ) $p(\mathbf{w}) = f(\mathbf{w})$ ,

p p $p$ 就是 primitive function

这样, 原始问题用拉格朗日的形式来表达:

\begin{matrix} (5) & p^{*} = min_{w, b} max_{a} L (w, b, a) = \frac{1}{2} {‖ w ‖}^{2} + \sum_{i = 1}^{N} α_{i} (1 - y_{i} (w^{T} x_{i} + b)) s . t . α_{i} \geq 0 i = 1, 2, \dots, N s . t . 1 - y_{i} (w^{T} x_{i} + b) \leq 0 i = 1, 2, \dots, N \end{matrix}

$p^* = \min_{\mathbf{w}, b} \max_{\mathbf{a}} L(\mathbf{w}, b, \mathbf{a}) = \frac{1}{2}\left \| \mathbf{w} \right \| ^2 + \sum_{i=1}^N \alpha_i (1 - y_i(\mathbf{w}^T\mathbf{x_i} + b)) \tag{5} \\ s.t. \space \alpha_i \ge 0 \quad i=1, 2, \ldots, N \\ s.t. \space 1 - y_i(\mathbf{w}^T \mathbf{x_i} + b) \le 0 \quad i=1, 2, \ldots, N$

这里 $p^*$ 代表原始问题的最优值
我们看看直接求解会怎样: 首先式子里有 $\mathbf{w}, b$ 两个参数, 目标变量 $\mathbf{a}$ 又要满足不等式约束, 实在不好求, 所以转化为对偶形式:

2.对偶问题(dual problem)

d * = max a min w, b L (w, b, a) (6)

$d^* = \max_{\mathbf{a}} \min_{\mathbf{w}, b} L(\mathbf{w}, b, \mathbf{a}) \tag{6}$
这里

d∗ d ∗ $d^*$ 代表对偶问题最优解, 看下现在该怎样求解呢?
首先只有

a a $\mathbf{a}$ 一个参数,

w,b w , b $\mathbf{w}, b$ 又没有不等式约束, 那就直接对它们求偏导为0啊, 代回原式再来求

a a $\mathbf{a}$ , 不错, 好求解多了

不过 $d^*$ 和 $p^*$ 的关系是什么呢?

原始问题最优解与对偶问题最优解的关系

∵ min w, b L (w, b, a) \leq L (w, b, a) \leq max a L (w, b, a) (7)

$\because \min_{\mathbf{w}, b} L(\mathbf{w}, b, \mathbf{a}) \le L(\mathbf{w}, b, \mathbf{a}) \le \max_{\mathbf{a}} L(\mathbf{w}, b, \mathbf{a}) \tag{7}$

∴ d * = max a min w, b L (w, b, a) \leq min w, b max a L (w, b, a) = p * (8)

$\therefore d^* = \max_{\mathbf{a}} \min_{\mathbf{w}, b} L(\mathbf{w}, b, \mathbf{a}) \le \min_{\mathbf{w}, b} \max_{\mathbf{a}} L(\mathbf{w}, b, \mathbf{a}) = p^* \tag{8}$
我们可以看到,

d∗≤p∗ d ∗ ≤ p ∗ $d^* \le p^*$ 是没跑了, 那么究竟相等不呢?
经查阅资料,

d∗=p∗ d ∗ = p ∗ $d^* = p^*$ 时称为 strong duality(强对偶), 在满足 Slater条件, 即在凸优化问题中, 如果找到一个点

xi x i $\mathbf{x_i}$ 使所有的等式约束成立,所有的不等式约束(严格的不等)也成立的条件下, 如果满足 KKT条件, 那么强对偶成立

换言之, $d^* = p^*$ 的充要条件就是在满足Slater条件的约束下满足KKT条件, 注意这两种条件是对于最优点 $(\mathbf{w}^*, b^*, \mathbf{a}^*)$ 而言的

3.KKT条件推导

所谓KKT条件不就是在最优点应该满足的关系式吗, 那直接从原问题形式即(3)式入手:
那么, 有

α * i \geq 0 i = 1, 2, \dots, N (9)

$\alpha_i^* \ge 0 \quad i=1, 2, \ldots , N \tag{9}$

1 - y i ((w *) T x i + b *) \leq 0 i = 1, 2, \dots, N (10)

$1 - y_i((\mathbf{w}^*)^T\mathbf{x_i} + b^*) \le 0 \quad i=1, 2, \ldots , N \tag{10}$
对式(10)这个不等式约束, 取其中一个

i i $i$ 为例子, 分为两种情况讨论:

情况一

$1 - y_i((\mathbf{w}^*)^T\mathbf{x_i} + b^*) = 0$ 时, 相当于确定了一个 $N-1$ 维的约束平面 $S$ , 在这个平面上寻找使得式(1)中的目标函数 $f(\mathbf{w})$ 最小点
通过以下几条线索:
1, 在约束曲面 $S$ 上任意点, 该点的梯度垂直于曲面
2, 在最优点处, $\nabla f(\mathbf{w^*})$ 也垂直于曲面(沿负梯度方向是下降方向, 垂直说明 降无可降, 即为最小点)
可以得出结论,

\nabla f (w *) = α i \nabla (1 - y i ((w *) T x i + b *)) (11)

$\nabla f(\mathbf{w^*}) = \alpha_i \nabla (1 - y_i((\mathbf{w}^*)^T\mathbf{x_i} + b^*)) \tag{11}$
且

αi>0 α i > 0 $\alpha_i > 0$

∇f(w) ∇ f ( w ) $\nabla f(\mathbf{w})$ 方向是约束曲面上 无路可走 的方向, 式(11)说明它和约束不等式梯度方向相反, 即和约束不等式负梯度方向相同, 要沿负梯度方向下降?无路可走啦, 这不是最小值点吗

情况二

$1 - y_i((\mathbf{w}^*)^T\mathbf{x_i} + b^*) < 0$ 时, 此时问题为在被约束曲面分隔开的其中一个区域中求解最小值
如果 $\mathbf{w}$ 有在此区域内的点, 则直接对其求偏导为0即可得 $\mathbf{w^*}$
此时相当于令 $\alpha_i = 0$ , 因为这个不等式约束在求解最优点过程中没起作用

综合两种情况

得到:

α i (1 - y i (w * T x i + b *)) = 0 i = 1, 2, \dots, N (12)

$\alpha_i(1-y_i(\mathbf{w^*}^T\mathbf{x_i} + b^*)) = 0 \quad i=1, 2, \ldots, N \tag{12}$
注意, 二者不能同时为0 !
来看看我们做了什么: 我们从原始拉格朗日问题形式的两种约束, 经过分析最优点的情况, 推出了新的约束
那么接下来, 就是不管约束, 对式(3)求解极值点了呗
所以加上这两个式子:

\nabla w L (w *, b *, a *) = w - \sum i = 1 N α i y i x i = 0 (13)

$\nabla_{\mathbf{w}} L(\mathbf{w^*}, b^*, \mathbf{a}^*) = \mathbf{w} - \sum_{i=1}^N \alpha_iy_i\mathbf{x_i} = 0 \tag{13}$

\nabla b L (w *, b *, a *) = - \sum i = 1 N α i y i = 0 (14)

$\nabla_{b} L(\mathbf{w^*}, b^*, \mathbf{a}^*) = - \sum_{i=1}^N\alpha_iy_i = 0 \tag{14}$

总结得到的式子, 这些就叫做KKT条件啦:

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ \nabla w L (w *, b *, a *) = 0 \nabla b L (w *, b *, a *) = 0 α * i \geq 0 i = 1, 2, \dots, N 1 - y i ((w *) T x i + b *) \leq 0 i = 1, 2, \dots, N α i (1 - y i (w * T x i + b *)) = 0 i = 1, 2, \dots, N

$\begin{cases} \nabla_{\mathbf{w}} L(\mathbf{w^*}, b^*, \mathbf{a}^*) = 0 \\ \nabla_{b} L(\mathbf{w^*}, b^*, \mathbf{a}^*) = 0 \\ \alpha_i^* \ge 0 \quad i=1, 2, \ldots , N \\ 1 - y_i((\mathbf{w}^*)^T\mathbf{x_i} + b^*) \le 0 \quad i=1, 2, \ldots , N \\ \alpha_i(1-y_i(\mathbf{w^*}^T\mathbf{x_i} + b^*)) = 0 \quad i=1, 2, \ldots, N \end{cases}$

公式比较多, 手写latex真是累死……不当之处请大家指出

参考:

1, 《统计学习方法》，李航著;
2, 《机器学习》, 周志华著;
3, 支持向量机通俗导论（理解SVM的三层境界）

Alanaker

关注

4
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
SVM之拉格朗日对偶问题与KKT条件推导

1.线性可分SVM要求解的原始问题2.对偶问题(dual problem)原始问题最优解与对偶问题最优解的关系3.KKT条件推导情况一情况二综合两种情况参考:原因是学到SVM这里发现这个lagrange dual problem 必须满足 KKT 条件, 于是写下了这篇文章记录这些条件被推出的过程, 本人才疏学浅, 不当之处请尽管指出1.线性可分SV...
复制链接

扫一扫

专栏目录