SVM支持向量机学习笔记 _ 1 数学基础

最新推荐文章于 2020-04-07 14:28:04 发布

azdtm1996

最新推荐文章于 2020-04-07 14:28:04 发布

阅读量635

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_16774235/article/details/51927011

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

SVM支持向量机学习笔记 _ 1 数学基础

注：本文以及以后出现的变量 $x$ 或其他没有标量角标的变量，除特殊说明外，均为向量。

一、拉格朗日对偶性：

1.无约束的极值优化问题

Fermat引理，其中的核心告诉我们在该点可微的情况下，如果该点为极值点，则其导数必为0。

2.仅含等式约束的优化问题

Lagrange乘子法:

min x f (x)

$\min_x f(x)$

s . t . h j (x) = 0, j = 1, 2, \dots, n

$s.t. h_j (x) = 0 , j =1,2 ,\cdots,n$
这是一个等式约束的优化问题，构建Lagrange乘子

L (x, β j) = f (x) + \sum j = 1 n β j h j (x)

$L(x,\beta_j) = f(x) + \sum_{j = 1}^n \beta_jh_j(x)$
对每个变量和待求参数分别求偏导就得到了极值点的待求集合。
注：这个方法的理解可以参考下面的文章，讲的比较清楚，在此不再赘述。
深入理解拉格朗日乘子法（Lagrange Multiplier) 和KKT条件

3.含不等式约束的优化问题(主要是Lagrange Duality)

考虑原始问题:

min x f (x)

$\min_x f(x)$

s . t . c i (x) ⩽ 0, i = 1, 2, \dots, k

$s.t. \ c_i (x) \leqslant 0 , i =1,2 ,\cdots,k$

h j (x) = 0, j = 1, 2, \dots, l

$\ \ \ \ \ \ \ h_j (x) = 0 , j =1,2 ,\cdots,l$
将该问题称为原始最优化问题

p $p$ 。
接下来，引进广义拉格朗日函数（generalized Lagrange function）

L (x, α, β) = f (x) + \sum i = 1 k α i c i (x) + \sum j = 1 l β j h j (x)

$L(x,\alpha,\beta) = f(x) + \sum_{i = 1}^k \alpha_i c_i(x)+ \sum_{j = 1}^l \beta_j h_j(x)$

α i ⩾ 0, i = 1, 2, \dots, k

$\alpha_i \geqslant 0, i =1,2 ,\cdots,k$
下面来解释一下我们为什么要构建这个函数：
令

θ p (x) = max α, β; α i ⩾ 0 L (x, α, β)

$\theta_p(x)=\max_{\alpha,\beta;\alpha_i \geqslant 0} L(x,\alpha,\beta)$
且D为x满足原约束的集合，我们可以很轻松的得到：

θ p (x) = {f (x), x ϵ D + \infty

$\theta_p(x) = \left\{ \begin{aligned} & f(x), \ x\epsilon D\\ & +\infty \end{aligned} \right.$
则

min θ p (x) = min x ϵ D f (x)

$\min\theta_p(x) =\min_{x\epsilon D} f(x)$
等式的前一项为D域上的问题，后一项为全局意义上的问题，这样就将原始的最优化问题转化成了极大极小问题，但是我们知道凸优化问题是我们常解决的一类问题，但是极小极大问题未必是凸优化问题。
所以我们下面来考虑极小极大问题的对偶问题:
原极小极大问题为

min x max α, β; α i ⩾ 0 L (x, α, β)

$\min_x\max_{\alpha,\beta;\alpha_i \geqslant 0} L(x,\alpha,\beta)$
其对偶问题为：

max α, β; α i ⩾ 0 min x L (x, α, β)

$\max_{\alpha,\beta;\alpha_i \geqslant 0} \min_xL(x,\alpha,\beta)$
对于上述两个问题，存在以下三个定理：
令原始问题的最优值为

d∗ $d^*$ ,对偶问题的最优值为

p∗ $p^*$ ，这里的原始问题指的是对偶问题对应的原始问题，不是整篇文章最开始的原始问题(虽然结果是一致的)。

1.假定原始问题和对偶问题均有最优值，则 $d^* \leqslant p^*$
2.考虑原始问题和对偶问题，假定函数 $f(x)$ 和 $c_i(x)$ 为凸函数， $h_j(x)$ 为仿射函数；并且假设不等式约束 $c_i(x)$ 是严格可行的，即存在 $x$ ，对所有的 $i$ 都有 $c_i(x)<0$ ,则存在 $x^*$ ， $\alpha^*$ , $\beta^*$ ，使 $x^*$ 是原始问题的解， $\alpha^*$ , $\beta^*$ 是对偶问题的解，且 $d^*=p^*=L(x^*,\alpha^*,\beta^*)$ 。
3.对原始问题和对偶问题，假设函数 $f(x)$ 和 $c_i(x)$ 为凸函数， $h_j(x)$ 为仿射函数；并且假设不等式约束 $c_i(x)$ 是严格可行的，则 $x^*,\alpha^*,\beta^*$ 分别为原始问题和对偶问题的解的充分条件是 $x^*,\alpha^*,\beta^*$ 满足KKT条件：

\nabla x L (x *, α *, β *) = 0, \nabla α L (x *, α *, β *) = 0, \nabla β L (x *, α *, β *) = 0

$\nabla_x L(x^*,\alpha^*,\beta^*) = 0 \ \ ,\ \ \nabla_\alpha L(x^*,\alpha^*,\beta^*) = 0 \ \ ,\ \ \nabla_\beta L(x^*,\alpha^*,\beta^*) = 0$

α * i c i (x *) = 0, c i (x *) ⩽ 0, α * ⩾ 0, h j (x) = 0

$\alpha_i ^* c_i (x^*) = 0\ \ ,\ c_i(x^*) \leqslant 0\ ,\ \alpha^* \geqslant 0\ \ ,\ h_j(x) = 0$

i = 1, 2, 3, \dots, m, j = 1, 2, 3, \dots, n

$i = 1,2,3,\cdots,m\ \ ,\ \ j =1,2,3,\cdots,n$

本文内容参考李航老师的《统计学习方法》

azdtm1996

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SVM支持向量机学习笔记 _ 1 数学基础

SVM支持向量机学习笔记 _ 1 数学基础注：本文以及以后出现的变量xx或其他没有标量角标的变量，除特殊说明外，均为向量。一、拉格朗日对偶性：1.无约束的极值优化问题Fermat引理，其中的核心告诉我们在该点可微的情况下，如果该点为极值点，则其导数必为0。2.仅含等式约束的优化问题Lagrange乘子法: minxf(x) \min_x f(x) s.t.hj(x)=0,j=1,2,
复制链接

扫一扫