最优化问题 -- 从无约束优化到不等式约束优化

在这里插入图片描述

最优化问题

最优化问题可以分为无约束优化问题、等式约束优化问题和不等式约束优化问题。最令人头疼的就是不等式约束问题,然而它又是最常用的。接下来将针对每一种优化问题展开讲述,逐步展开是如何从无约束的优化问题一步步演变成不等式约束问题的

1. 无约束优化问题

- 求导
- 最速下降法
- 共轭梯度法
- 牛顿法

一般情况下, 无约束优化问题可以认为是一个函数求极值的问题,没错就是高考数学大题第二问常考的那个。写成一般式就是这个样子
min ⁡ x f ( x ) , s . t . x ∈ χ \min_x f(x), \\ s.t. \quad x \in \chi xminf(x),s.t.xχ
其中, x ∈ χ x \in \chi xχ 称作决策变量 f ( x ) ∈ R f(x) \in \mathbb{R} f(x)R 称作目标函数。使得 f ( x ) f(x) f(x) 达到极小的 x x x被称为上述优化问题的,记为 x ∗ x^* x,而 f ( x ∗ ) f(x^*) f(x)则是该优化问题的最优值。还可以换一种写法:
x ∈ a r g   m i n   f ( x ) x \in arg \ min \ f(x) xarg min f(x)
求最优就直接套用高考数学大法——求导。

全局最优解 & 局部最优解 【不重要…】
  1. 若对于任意的 x ∈ R , f ( x ) ≥ f ( x ∗ ) x \in \mathbb{R}, f(x) \ge f(x^*) xR,f(x)f(x),则称 x ∗ x^* x为该问题的全局最优解;如果 f ( x ) > f ( x ∗ ) f(x) \gt f(x^*) f(x)>f(x), 则称 x ∗ x^* x为该问题的严格全局最优解
  2. 若对于任意的 x ∗ ∈ R n x^* \in \mathbb{R}^n xRn,若存在 ϵ > 0 \epsilon \gt 0 ϵ>0,使得对于任意的 x ∈ R n x \in \mathbb{R}^n xRn,当 ∣ ∣ x − x ∗ ∣ ∣ < ϵ ||x - x^*|| \lt \epsilon ∣∣xx∣∣<ϵ 时,有 f ( x ) ≥ f ( x ∗ ) f(x) \ge f(x^*) f(x)f(x),则称 x ∗ x^* x为该问题的局部最优解,同理,如果 f ( x ) > f ( x ∗ ) f(x) \gt f(x^*) f(x)>f(x),则称 x ∗ x^* x为该问题的严格局部最优解

但是有时候,我们的问题会受到一点点限制。(毕竟人生哪有一帆风顺的呢 ,总得作个妖 = =),这时候问题就演变成了约束优化问题。

2. 等式约束优化问题

- 拉格朗日乘数法

一般情况下可以写成:
m i n   f ( x ) s . t . g i ( x ) = 0 , i ∈ E . min \ f(x) \\ s.t. \quad g_i (x) = 0, i \in \mathcal{E}. min f(x)s.t.gi(x)=0,iE.
其中, g i ( x )   =   0 g_i(x) \ = \ 0 gi(x) = 0称作等式约束。简单点说就是在求极值的情况下我们还得满足这个等式约束条件。假设问题是求极大值问题 m a x   f ( x ) max \ f(x) max f(x), 我们可以取目标函数的相反数,使其变为求极小值问题,即 m i n   − f ( x ) min \ -f(x) min f(x)

2.1. 拉格朗日乘数法

在数学优化问题中,拉格朗日乘数法(Lagrange multipliers )是一种用于求解等式约束条件下局部最小(最大)值的策略。它的基本思想是通过将含约束条件的优化问题转化为无约束条件下的优化问题,以便于得到各个未知变量的梯度,进而求得极值点。因此,一句话就是拉格朗日乘数法是一种用来求解条件极值的工具。这种方法中引入了一个或一组新的未知数,即拉格朗日乘数,又称拉格朗日乘子,或拉氏乘子,它们是在转换后的方程,即约束方程中作为梯度(gradient)的线性组合中各个向量的系数。

图形化解释参照 --> 《如何理解拉格朗日乘子法?》 非常便于理解!

要求 f ( x , y ) f(x, y) f(x,y) g ( x , y ) = 0 g(x, y) = 0 g(x,y)=0 时的局部极值时,我们可以引入新变量拉格朗日乘数 λ \lambda λ,这时我们只需要求下列拉格朗日函数的局部极值:
L ( x , y , λ ) = f ( x , y ) + λ ⋅ g ( x , y ) \mathcal{L}(x, y, \lambda) = f(x, y) + \lambda \cdot g(x, y) L(x,y,λ)=f(x,y)+λg(x,y)
更一般地, 对含有n个变量和k个约束的情况,有:
L ( x 1 , . . . , x n , λ 1 , . . . , λ k ) = f ( x 1 , . . . , x n ) + ∑ i = 1 k λ i g i ( x 1 , . . . , x n ) \mathcal{L} (x_1, ..., x_n, \lambda_1, ..., \lambda_k) = f(x_1,...,x_n) + \sum_{i=1}^{k}\lambda_ig_i(x_1,...,x_n) L(x1,...,xn,λ1,...,λk)=f(x1,...,xn)+i=1kλigi(x1,...,xn)

举个栗子 [ 3 ] ^{[3]} [3]
在这里插入图片描述
至于为啥能这样呢?详见 《好久不见的拉格朗日乘数法》

2.2. 对偶问题

啥是对偶问题,就是两个问题从两个角度出发,一个求最大另一个求最小,但是(几乎)可以得出一样的结论。先来记个表达式,对偶问题怎么表述 (诶?怎么出现不等式了?没错,等式约束已经很容易了,接下来就要逐步往不等式约束转变了,但首先还是要补充一点相关理论):
m a x Z = C X s . t .   A X ≤ b X ≥ 0 max Z = C X \\ s.t. \quad \ \begin{aligned} AX \le b \\ X \ge 0 \end{aligned} maxZ=CXs.t. AXbX0
上述问题的对偶问题就是:
m i n W = b T Y s . t .   A T Y ≥ C T Y ≥ 0 min W = b^T Y \\ s.t. \quad \ \begin{aligned} A^TY \ge C^T \\ Y \ge 0 \end{aligned} minW=bTYs.t. ATYCTY0
举个例子,左边是原问题,右边就是它的对偶问题:

在这里插入图片描述

2.3 对偶问题与拉格朗日

假设我们有两个约束条件,约束优化问题表示为:
m i n   f ( x ) s . t .   c i ( x ) = 0 ,   i ∈ I , c i ( x ) ≥ 0 ,   i ∈ E . min \ f(x) \\ s.t. \quad \ \begin{aligned} c_i(x) = 0, \ i \in \mathcal{I}, \\ c_i(x) \ge 0, \ i \in \mathcal{E}. \end{aligned} min f(x)s.t. ci(x)=0, iI,ci(x)0, iE.
那拉格朗日函数写为:
L ( x , λ , v ) = f ( x ) + ∑ i ∈ I λ i c i ( x ) + ∑ i ∈ E v i c i ( x ) \mathcal{L}(x, \lambda, v) = f(x) + \sum_{i \in \mathcal{I}} \lambda_i c_i(x) + \sum_{i \in \mathcal{E}} v_i c_i(x) L(x,λ,v)=f(x)+iIλici(x)+iEvici(x)
其中, λ , v \lambda, v λ,v是对应的拉格朗日乘子向量,根据拉格朗日函数可以定义拉格朗日对偶函数:
g ( λ , v ) : = inf ⁡ x ∈ R n L ( x , λ , v ) , g(\lambda, v) := \inf_{x \in \mathbb{R^n}} \mathcal{L}(x, \lambda, v), g(λ,v):=xRninfL(x,λ,v),
则称 g g g是拉格朗日函数 L \mathcal{L} L的拉格朗日对偶函数

3. 不等式约束优化问题

- KKT条件

还是这个熟悉的问题:
m i n f ( x ) s . t .   g ( x ) ≤ 0. min \quad f(x) \\ s.t. \quad \ \begin{aligned} g(x) \le 0. \end{aligned} minf(x)s.t. g(x)0.
为方便对比,我们先把等式约束拿掉,只留下不等式约束,而想要从拉格朗日乘数法演变成不等式约束问题,需要引入KKT条件,将等式约束问题推广至不等式约束。

3.1 KKT

KKT条件的推理过程详见:传送门
结论:最佳解的必要条件包括Lagrangian函数 L ( x , λ ) \mathcal{L}(x, \lambda) L(x,λ)的定常方程式、原始可行性、对偶可行性,以及互补松弛性,这些条件合称为Karush-Kuhn-Tucker(KKT)条件,表示为:
∇ x L = ∇ f + λ ∇ g = 0 g ( x ) ≤ 0 λ ≥ 0 λ g ( x ) = 0 \nabla_x\mathcal{L} = \nabla f + \lambda \nabla g = 0 \\ g(x) \le 0 \\ \lambda \ge 0 \\ \lambda g(x) = 0 xL=f+λg=0g(x)0λ0λg(x)=0
其中KKT的核心点就是 λ g ( x ) = 0 \lambda g(x) = 0 λg(x)=0,被称为互补松弛性,这也是将不等式转换成等式的关键概念。它的核心思想是描述不等式约束与其对应的拉格朗日乘数之间的关系。具体来说,互补松弛性要求每个不等式约束的拉格朗日乘数和该约束在解处的函数值的乘积必须为零。我们先分类讨论一下可能的情况:

  • g ( x ) = 0 g(x) = 0 g(x)=0 约束紧绑定(Active Constraint):如果不等式约束在解处是紧的(即约束等号成立),则相应的拉格朗日乘数可以是正的。等式约束问题,采用拉格朗日乘数法求解。
    g ( x ) = 0 , λ ≥ 0 g(x) = 0, \\ \lambda \ge 0 g(x)=0,λ0
  • g ( x ) < 0 g(x) < 0 g(x)<0 约束松弛(Inactive Constraint):如果不等式约束在解处是松弛的(即约束严格小于零),则相应的拉格朗日乘数必须为零。约束不起作用,问题转化为无约束优化问题。
    g ( x ) ≤ 0 , λ = 0 g(x) \le 0, \\ \lambda = 0 g(x)0,λ=0
  • g ( x ) > 0 g(x) > 0 g(x)>0 都不满足条件了,直接抛弃。

有效的两种情况写成一个统一的形式,就有了最终的互补松弛性KKT条件
λ g ( x ) = 0 \lambda g(x) = 0 λg(x)=0

互补松弛性确保了在最优解处,只要不等式约束是松弛的(即未达到边界),对应的拉格朗日乘数就不会对优化问题产生影响。


回到上一节中说的问题,假设我们既有等式约束也有非等式约束:
m i n f ( x ) s . t . g i ( x ) = 0 , j = 1 , . . . m , h k ( x ) ≤ 0 , k = 1 , . . . p min \quad f(x) \\ s.t. \quad g_i(x) = 0, \quad j = 1,...m, \\ h_k(x) \le 0, \quad k = 1,...p minf(x)s.t.gi(x)=0,j=1,...m,hk(x)0,k=1,...p
定义拉格朗日函数:
L ( x , λ j , μ k ) = f ( x ) + ∑ j = 1 m λ j g j ( x ) + ∑ k = 1 p μ k h k ( x ) \mathcal{L}(x, \lambda_j, \mu_k) = f(x) + \sum_{j=1}^m\lambda_jg_j(x) + \sum_{k=1}^p\mu_kh_k(x) L(x,λj,μk)=f(x)+j=1mλjgj(x)+k=1pμkhk(x)
其中, μ j \mu_j μj是对应 g j ( x ) = 0 g_j(x)=0 gj(x)=0的拉格朗日乘数, μ k \mu_k μk是对应 h k ( x ) ≤ 0 h_k(x) \le 0 hk(x)0的拉格朗日乘数。KKT条件包括:
∇ L = 0 g j ( x ) = 0 , j = 1 , . . . m h k ( x ) ≤ 0 , μ k ≥ 0 , μ k h k ( x ) = 0 , k = 1 , . . . p \nabla \mathcal{L} = 0 \\ g_j(x) = 0, \quad j = 1,...m \\ h_k(x) \le 0, \\ \mu_k \ge 0, \\ \mu_kh_k(x) = 0, k = 1,...p L=0gj(x)=0,j=1,...mhk(x)0,μk0,μkhk(x)=0,k=1,...p
根据KKT条件即可求出符合要求的结果。看个例子 [ 4 ] ^{[4]} [4]
在这里插入图片描述
在这里插入图片描述

4. Reference

[1] https://zhuanlan.zhihu.com/p/643638712 “最优化方法1——最优化问题的解存在唯一性”
[2] https://zhuanlan.zhihu.com/p/645107210 “最优化方法3——对偶理论”
[3] https://zhuanlan.zhihu.com/p/149104728 “好久不见的拉格朗日乘数法”
[4] https://zhuanlan.zhihu.com/p/38163970 “Karush-Kuhn-Tucker (KKT)条件”
[5] https://zhuanlan.zhihu.com/p/556832103" KKT条件,原来如此简单 | 理论+算例实践"

  • 13
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值