拉格朗日乘子法和对偶问题详解
第十二次写博客,本人数学基础不是太好,如果有幸能得到读者指正,感激不尽,希望能借此机会向大家学习。这一篇主要是为了下面要讲的SVM和SVR做理论储备,这部分涉及到的数学知识稍难理解,文章内容是结合网上的解释,以自己的理解写出来的。本文脉络清晰,非常适合读者为学习支持向量机打下一定基础。
首先回顾一下梯度(Gradient)的相关知识,这部分是整篇文章的基础,从不同的角度介绍了不同空间下的梯度定义,然后对拉格朗日乘子法(Lagrange Multipliers)进行介绍和原理证明,之后介绍一些最优化中的凸优化问题,最后对对偶问题进行推导和证明。
梯度(Gradient)
首先介绍一下几个定义:
导数,在自变量变化趋于无穷小的时候,函数值的变化与自变量变化的比值代表了导数,几何中的意义为该点的切线。物理中的意义为该时刻的(瞬时)变化率 。
偏导数,沿着某一个自变量方向的导数。
方向导数,是空间中一个点沿各个(自变量)方向的导数。
梯度的本意是一个向量(矢量),表示某一函数在空间某一点处的方向导数沿着该方向将会取得最大值,即函数在该点处沿着该方向(该点梯度的方向)变化最快,变化率最大(为该点梯度的模)。具体的介绍可见如何直观形象的理解方向导数与梯度以及它们之间的关系?(知乎),梯度的计算方法可见梯度(百度百科),下面分别对二维和三维情况进行讨论:
(1) 曲线(二维)上某点的切向量、法向量和梯度之间的关系
1) 假设二维空间上存在一条曲线 l l l,当采用普通形式进行表示时,即 y = f ( x ) y=f\left(x\right) y=f(x)或者 F ( x , y ) F\left(x,y\right) F(x,y),那么曲线上某点 ( x , y ) \left(x,y\right) (x,y)的
a.切向量为 [ d x d x , d y d x ] T [\frac{dx}{dx},\frac{dy}{dx}]^T [dxdx,dxdy]T或 [ d x d x , d f ( x ) d x ] T [\frac{dx}{dx},\frac{df\left(x\right)}{dx}]^T [dxdx,dxdf(x)]T
b.法向量为 [ ∂ F ( x , y ) ∂ x , ∂ F ( x , y ) ∂ y ] T [\frac{\partial{F\left(x,y\right)}}{\partial{x}},\frac{\partial{F\left(x,y\right)}}{\partial{y}}]^T [∂x∂F(x,y),∂y∂F(x,y)]T
c.梯度同样为 [ ∂ F ( x , y ) ∂ x , ∂ F ( x , y ) ∂ y ] T [\frac{\partial{F\left(x,y\right)}}{\partial{x}},\frac{\partial{F\left(x,y\right)}}{\partial{y}}]^T [∂x∂F(x,y),∂y∂F(x,y)]T
2) 假设二维空间XOY上存在一条曲线 l l l,当采用参数形式进行表示时,即 f ( n ) = { n 2 , if n is even 3 n + 1 , if n is odd f(n)=\begin{cases}\frac{n}{2},&\text{if $n$ is even}\\[2ex]3n+1,&\text{if $n$ is odd}\\[2ex]\end{cases} f(n)=⎩⎪⎨⎪⎧2n,3n+1,if n is evenif n is odd或者转化为不带参数 t t t的 F ( x , y ) F\left(x,y\right) F(x,y),那么曲线上某点 ( x , y ) \left(x,y\right) (x,y)的
a.切向量为 [ d x ( t ) d x ( t ) , d y ( t ) d t ⋅ 1 d x ( t ) d t ] T [\frac{dx\left(t\right)}{dx\left(t\right)},\frac{dy\left(t\right)}{dt}\cdot\frac{1}{\frac{dx\left(t\right)}{dt}}]^T [dx(t)dx(t),dtdy(t)⋅dtdx(