拉格朗日乘子法

最新推荐文章于 2021-04-19 15:48:13 发布

做技术不可耻

最新推荐文章于 2021-04-19 15:48:13 发布

阅读量293

点赞数

文章标签：最优化

本文链接：https://blog.csdn.net/qq_40019838/article/details/100027734

版权

拉格朗日乘子法

拉格朗日乘子法是常用的一阶优化方法，本文首先介绍基本的拉格朗日乘子法，接着介绍具有不等式约束情形的拉格朗日对偶问题，最后使用拉格朗日对偶方法解决硬间隔支持向量机问题。

拉格朗日函数

对函数 $f(\boldsymbol{x})$ ， $R^d\mapsto R$ ，考虑优化问题
$\begin{aligned} &\min\limits_{\boldsymbol{x}}\quad f(\boldsymbol{x})\\ &s.t.\quad h(\boldsymbol{x})=0 \end{aligned}$
目标函数在最优点 $\boldsymbol{x}^{\ast}$ 处的梯度一定正交于 $h(\boldsymbol{x})=0$ 确定的 $d - 1$ 维约束曲面，同时对于约束曲面上的点 $\boldsymbol{x}$ ， $h(\boldsymbol{x})$ 在该点的梯度一定也正交于约束曲面，也就是说在最优点 $\boldsymbol{x}^{\ast}$ ，梯度 $\nabla f(\boldsymbol{x})$ 和 $\nabla g(\boldsymbol{x})$ 一定相同或相反，即存在 $\lambda\neq0$ 使得
$\nabla f(\boldsymbol{x}^{\ast})+\lambda \nabla g(\boldsymbol{x}^{\ast})=0$
$\lambda$ 称为拉格朗日乘子，定义拉格朗日函数
$L(\boldsymbol{x},\lambda)=f(\boldsymbol{x})+\lambda g(\boldsymbol{x})$
将其对 $\boldsymbol{x}$ 的偏导置零即可得到 $\nabla f(\boldsymbol{x}^{\ast})+\lambda \nabla g(\boldsymbol{x}^{\ast})=0$ ，将其对 $\lambda$ 的偏导置零即可得到 $h(\boldsymbol{x})=0$ ，于是带约束优化问题转变为对拉格朗日函数 $L(\boldsymbol{x},\lambda)$ 的无约束优化问题。

考虑不等式约束优化问题
$\begin{aligned} &\min\limits_{\boldsymbol{x}}\quad f(\boldsymbol{x})\\ &s.t.\quad g(\boldsymbol{x}) \leq0 \end{aligned}$
其最优点 $\boldsymbol{x}^{\ast}$ 或在 $g(\boldsymbol{x})<0$ 的区域内，或在边界 $g(\boldsymbol{x})=0$ 上，当最优解在约束区域内部时，约束 $g(\boldsymbol{x})\leq0$ 不起作用，可直接通过条件 $\nabla f(\boldsymbol{x})=0$ 来获得最优点，等价于将 $\lambda$ 置零然后对 $\nabla L(\boldsymbol{x},\lambda)$ 置零得到最优点。当最优解落在约束区域边界上时，对应 $g(\boldsymbol{x})=0$ 的情形，等价于等式约束。但此时 $\nabla f(\boldsymbol{x}^{\ast})$ 与 $\nabla g(\boldsymbol{x}^{\ast})$ 的方向一定相反，否则在 $g(\boldsymbol{x})<0$ 的区域内 $f(\boldsymbol{x})$ 还能取更小的值。因此存在 $\lambda>0$ 使得 $\nabla f(\boldsymbol{x}^{\ast})+\lambda \nabla g(\boldsymbol{x}^{\ast})=0$ 。总之必满足 $\lambda g(\boldsymbol{x})=0$ ，因此原问题可转化为在如下约束下最小化拉格朗日函数
$\begin{cases} g(\boldsymbol{x}) \leq0\\ \lambda\geq0\\ \lambda g(\boldsymbol{x})=0 \end{cases}$
这称为Karush-Kuhn-Tucker(KKT)条件。

拉格朗日对偶

将上述想法推广到多个约束，考虑具有m个等式约束和n个不等式约束的优化问题
$\begin{aligned} &\min\limits_{\boldsymbol{x}}\quad f(\boldsymbol{x})\\ &s.t.\quad h_i(\boldsymbol{x})=0 &i=1,\cdots,m\\ &\quad \quad \;g_j(\boldsymbol{x}) \leq0 &j=1,\cdots,n \end{aligned}$
引入拉格朗日乘子 $\boldsymbol{a}=(a_1,\cdots,a_m)^T$ 和 $\boldsymbol{b}=(b_1,\cdots,b_n)^T$ ，相应的广义拉格朗日函数为
$L(\boldsymbol{x},\boldsymbol{a},\boldsymbol{b})= f(\boldsymbol{x})+\sum_{i=1}^ma_ih_i(\boldsymbol{x})+\sum_{j=1}^nb_jg_j(\boldsymbol{x})$
相应的KKT条件为
$\begin{cases} g_j(\boldsymbol{x}) \leq0\\ b_j\geq0\\ b_jg_j(\boldsymbol{x})=0 \end{cases}$
考虑 $\boldsymbol{x}$ 的函数
$\Theta_P(\boldsymbol{x})=\max\limits_{\boldsymbol{a},\boldsymbol{b};b_j\geq0}L(\boldsymbol{x},\boldsymbol{a},\boldsymbol{b})$
假设对于某个 $\boldsymbol{x}$ 违反原始问题的约束，那么 $\Theta_P(\boldsymbol{x})\rightarrow+\infty$ ，因为可以让 $a_ih_i(\boldsymbol{x})\rightarrow+\infty$ 或让 $b_j\rightarrow+\infty$ 。相反如果 $\boldsymbol{x}$ 满足原始问题的约束，那么 $\Theta_P(\boldsymbol{x})=f(\boldsymbol{x})$ 。因此
$\Theta_P(\boldsymbol{x})=\begin{cases}f(\boldsymbol{x}),&\boldsymbol{x}满足约束\\ +\infty,&其他 \end{cases}$
如果考虑极小化问题
$\min\limits_{\boldsymbol{x}}\Theta_P(\boldsymbol{x})=\min\limits_{\boldsymbol{x}}\max\limits_{\boldsymbol{a},\boldsymbol{b};b_j\geq0}L(\boldsymbol{x},\boldsymbol{a},\boldsymbol{b})$
它与原始最优化问题是等价的。称之为广义拉格朗日函数的极小极大问题。定义原始问题的最优值
$p^{\ast}=\min\limits_{\boldsymbol{x}}\Theta_P(\boldsymbol{x})$
接着考虑 $\boldsymbol{x}$ 的函数
$\Theta_D(\boldsymbol{a},\boldsymbol{b})=\min\limits_{\boldsymbol{x}}L(\boldsymbol{x},\boldsymbol{a},\boldsymbol{b})$
极大化 $\Theta_D(\boldsymbol{a},\boldsymbol{b})$ ，即
$\max\limits_{\boldsymbol{a},\boldsymbol{b};b_j\geq0}\Theta_D(\boldsymbol{a},\boldsymbol{b})=\max\limits_{\boldsymbol{a},\boldsymbol{b};b_j\geq0}\min\limits_{\boldsymbol{x}}L(\boldsymbol{x},\boldsymbol{a},\boldsymbol{b})$
称为广义拉格朗日函数的极大极小问题，可将其表示为约束最优化问题
$\begin{aligned} &\max\limits_{\boldsymbol{a},\boldsymbol{b}}\;\Theta_D(\boldsymbol{a},\boldsymbol{b})\\ &s.t.\quad b_j\geq0 \end{aligned}$
称为原始问题的对偶问题，定义对偶问题的最优值
$d^{\ast}=\max\limits_{\boldsymbol{a},\boldsymbol{b};b_j\geq0}\Theta_D(\boldsymbol{a},\boldsymbol{b})$
若原始问题和对偶问题都有最优值，则满足
$d^{\ast}=\max\limits_{\boldsymbol{a},\boldsymbol{b};b_j\geq0}\min\limits_{\boldsymbol{x}}L(\boldsymbol{x},\boldsymbol{a},\boldsymbol{b})\leq \min\limits_{\boldsymbol{x}}\max\limits_{\boldsymbol{a},\boldsymbol{b};b_j\geq0}L(\boldsymbol{x},\boldsymbol{a},\boldsymbol{b})=q^{\ast}$
证明：对任意 $\boldsymbol{x}$ ， $\boldsymbol{a}$ ， $\boldsymbol{b}$ 有
$\Theta_D(\boldsymbol{a},\boldsymbol{b})=\min\limits_{\boldsymbol{x}}L(\boldsymbol{x},\boldsymbol{a},\boldsymbol{b})\leq L(\boldsymbol{x},\boldsymbol{a},\boldsymbol{b})\leq\max\limits_{\boldsymbol{a},\boldsymbol{b};b_j\geq0}L(\boldsymbol{x},\boldsymbol{a},\boldsymbol{b})=\Theta_P(\boldsymbol{x})$
即
$\Theta_D(\boldsymbol{a},\boldsymbol{b})\leq\Theta_P(\boldsymbol{x})$
由于原始问题和对偶问题都有最优值，所以
$\max\limits_{\boldsymbol{a},\boldsymbol{b};b_j\geq0}\Theta_D(\boldsymbol{a},\boldsymbol{b})\leq \min\limits_{\boldsymbol{x}}\Theta_P(\boldsymbol{x})$
即
$d^{\ast}=\max\limits_{\boldsymbol{a},\boldsymbol{b};b_j\geq0}\min\limits_{\boldsymbol{x}}L(\boldsymbol{x},\boldsymbol{a},\boldsymbol{b})\leq \min\limits_{\boldsymbol{x}}\max\limits_{\boldsymbol{a},\boldsymbol{b};b_j\geq0}L(\boldsymbol{x},\boldsymbol{a},\boldsymbol{b})=q^{\ast}$
如果 $f(\boldsymbol{x})$ 和 $g_j(\boldsymbol{x})$ 为凸函数， $h_i(\boldsymbol{x})$ 为仿射函数，那么原始问题和对偶问题的最优值相同，即存在 $\boldsymbol{x^{\ast}}$ ， $\boldsymbol{a^{\ast}}$ 和 $\boldsymbol{b^{\ast}}$ ，使得
$d^{\ast}=q^{\ast}=L(\boldsymbol{x^{\ast}},\boldsymbol{a^{\ast}},\boldsymbol{b^{\ast}})$
这称为Slater条件，这时可以解对偶问题代替解原始问题。

硬间隔支持向量机

硬间隔支撑向量机可以写成优化问题
$\begin{aligned} &\min\limits_{\boldsymbol{w}}\quad\frac{1}{2}\|\boldsymbol{w}\|^2\\ &s.t.\quad y_i(\boldsymbol{w}^T\boldsymbol{x}_i+b)\geq1 &i=1,\cdots,m\\ \end{aligned}$
其广义拉格朗日函数为
$L(\boldsymbol{w},b,\boldsymbol{x})=\frac{1}{2}\boldsymbol{w}^T\boldsymbol{w}+\sum_{i=1}^ma_i(1-y_i(\boldsymbol{w}^T\boldsymbol{x}_i+b))$
$\frac{1}{2}\|\boldsymbol{w}\|^2$ 是关于 $\boldsymbol{w}$ 的二次函数， $1-y_i(\boldsymbol{w}^T\boldsymbol{x}_i+b)$ 是关于 $\boldsymbol{x}$ 的线性函数，两者都是凸函数，满足slater条件，为求其对偶问题首先需要对 $\boldsymbol{w}$ 和 $b$ 求偏导并令其等于0，可以得到
$\begin{aligned} \boldsymbol{w}-\sum_{i=1}^ma_iy_i\boldsymbol{x}_i&=0\\ \sum_{i=1}^ma_iy_i&=0 \end{aligned}$
将其代入 $L(\boldsymbol{w},b,\boldsymbol{x})$ 得到对偶函数
$L_D(\boldsymbol{a})=-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^na_ia_jy_iy_j\boldsymbol{x}_i^T\boldsymbol{x}_j+\sum_{i=1}^{m}a_i$
于是其对偶问题为
$\begin{aligned} &\max\limits_{\boldsymbol{a}}\quad L_D(\boldsymbol{a})\\ &s.t.\quad \sum_{i=1}^ma_iy_i=0\\ &\quad \quad \;\;a_i \geq 0 &i=1,\cdots,m\\ \end{aligned}$
解出对偶问题后，即可得到
$\boldsymbol{w}=\sum_{i=1}^ma_iy_i\boldsymbol{x}_i$
同时上述过程需满足KKT条件
$\begin{cases} a_i\geq0\\ 1-y_i(\boldsymbol{w}^T\boldsymbol{x}_i+b)\leq0 \\ a_i(1-y_i(\boldsymbol{w}^T\boldsymbol{x}_i+b))=0 \end{cases}$
因此对 $a_i\neq0$ 的样本，必有 $y_i(\boldsymbol{w}^T\boldsymbol{x}_i+b)=1$ ，这样的样本就是支撑向量，那么对任意支撑向量可以解得
$b=\frac{1}{y_i}-\boldsymbol{w}^T\boldsymbol{x_i}$
现实中为了保持鲁棒性，通常是对所有支撑向量求平均值。

做技术不可耻

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
拉格朗日乘子法

拉格朗日乘子法拉格朗日乘子法是常用的一阶优化方法，本文首先介绍基本的拉格朗日乘子法，接着介绍具有不等式约束情形的拉格朗日对偶问题，最后使用拉格朗日对偶方法解决硬间隔支持向量机问题。拉格朗日函数对函数f(x)f(\boldsymbol{x})f(x)，Rd↦RR^d\mapsto RRd↦R，考虑优化问题min⁡xf(x)s.t.h(x)=0\begin{aligned}&amp...
复制链接

扫一扫