高级优化理论与方法（十三）

liuzibujian

于 2024-05-27 11:39:45 发布

阅读量470

点赞数 4

分类专栏：高级优化理论与方法文章标签：优化理论优化方法数学拉格朗日乘数法

本文链接：https://blog.csdn.net/liuzibujian/article/details/139225086

版权

高级优化理论与方法专栏收录该内容

16 篇文章 1 订阅

订阅专栏

Non-linear Constrained Optimization

min $f (x)$
s.t. $h (x) = 0$
$g(x)\leq 0$

$x\in \mathbb{R}^n, f: \mathbb{R}^n\rightarrow \mathbb{R},h:\mathbb{R}^n\rightarrow \mathbb{R}^m,g:\mathbb{R}^n\rightarrow \mathbb{R}^p$

注：非线性优化问题和线性优化问题的最大区别在于目标函数是否是线性函数。

Case 1

min $f (x) = 0$
s.t. $h (x) = 0$

$h:\mathbb{R}^n\rightarrow \mathbb{R}^m,h\in C^1$ (continuously differential)

Definition

Def: Let $x^*$ be with $h_1(x^*)=0,\cdots,h_m(x^*)=0$ . $x^*$ is a regular point, if $\nabla h_1(x^*),\cdots,\nabla h_m(x^*)$ are linearly independent.

Jacobian: $Dh(x^*)=\begin{bmatrix} Dh_1(x^*)\\ Dh_2(x^*)\\ \cdots\\ Dh_m(x^*) \end{bmatrix}^T$

Def: Surface: $S=\{x\in\mathbb{R}^n:h_1(x)=0,\cdots,h_m(x)=0\}$

Example 1

$n=3,m=1,h(x)=x_2-x_3^2$
$Dh(x)=[0,1,-2x_3]$
$\forall x\in\mathbb{R}^3,Dh(x)\neq 0$
$S=\{x:x_2-x_3^2=0\}$

Example 2

$h_1(x)=x_1,h_2(x)=x_2-x_3^2$

$Dh(x^*)=\begin{bmatrix} 1&0&0\\ 0&1&-2x_3 \end{bmatrix}$
$S=\{x:x_1=0,x_2-x_3^2=0\}$

Necessary/Sufficient Conditions

FONC: $x^*$ local minimizer $\Rightarrow \nabla f(x^*)=0$
SONC: $x^*$ local minimizer $\Rightarrow \nabla f(x^*)=0,\forall y:y^T F(x^*)y\geq 0$
SOSC: (1) $\nabla f(x^*)=0$ (2) $\forall y:y^T F(x^*)y\geq 0\Rightarrow x^*$ strictly local minimizer

Definition

Def: A curve $C$ on a surface $S$ is a set of points $\{x(t)\in S:t\in(a,b)\},x(t):\mathbb{R}\rightarrow \mathbb{R}^n$ is a continuous function.

Curve differentiable: $\dot{x}(t)=\frac{dx}{dt}(t)=\begin{bmatrix} \dot{x}_1(t)\\ \dot{x}_2(t)\\ \cdots\\ \dot{x}_n(t) \end{bmatrix}$ exists for all $t\in (a,b)$
$\ddot{x}(t)=\frac{d^2x}{dt^2}(t)=\begin{bmatrix} \ddot{x}_1(t)\\ \ddot{x}_2(t)\\ \cdots\\ \ddot{x}_n(t) \end{bmatrix}$ exists for all $t\in (a,b)$

Def: tangent space at $x^*\in S=\{x\in\mathbb{R}^n:h(x)=0\}$ is the set $T(x^*)=\{y:Dh(x^*)y=0\}$

Example

$S=\{x\in \mathbb{R}^3: h_1(x)=x_1=0,h_2(x)=x_1-x_2=0\}$

$Dh(x^*)=\begin{bmatrix} 1&0&0\\ 1&-1&0 \end{bmatrix}$
$S$ regular points
$T(x)=\{y:\nabla h_1(x)^Ty=0,\nabla h_2(x)^Ty=0\}=\{[0,0,\alpha]:\alpha\in\mathbb{R}\}\Rightarrow x_3$ -axis

Theorem

Thm: Let $x^*$ be a regular point. $T(x^*)$ : tangent space at $x^*$ . Then: $y\in T(x^*)\Leftrightarrow \exist$ differentiable curve on $S$ passing through $x^*$ with derivative $y$ at $x^*$ .

FONC(Lagrange’s Condition)

2-Dimensional

$\mathbb{R}^3\rightarrow \mathbb{R}$
Let $x^*=[x_1^*,x_2^*]^T, h(x^*)=0$
Assume $\nabla h(x^*)\neq 0$
Let $x(t):\mathbb{R} \rightarrow \mathbb{R}^2,x(t)$ continuously differentiable.
$x(t)=\begin{bmatrix} x_1(t)\\ x_2(t) \end{bmatrix},t\in(a,b),x^*=x(t^*)$
$\because \forall t\in (a,b): h(x(t))=0$
$\therefore \forall t: \frac{d}{dt}h(x(t))=0$
$\therefore \nabla h(x^*)$ orthogonal to $x(t^*)$

Assume $x^*=x(t^*)$ minimizer of $f (x)$ on $S=\{x:h(x)=0\}$

Define $\phi(t)=f(x(t))\stackrel{FONC}{\Rightarrow} \frac{d\phi}{dt}(t^*)=0$
$0=\frac{d}{dt}\phi(t^*)=\nabla f(x(t^*))^T\dot{x}(t^*)=\nabla f(x^*)^T\dot{x}(t^*)$
$\Rightarrow \nabla f(x^*)$ is orthogonal to $\dot{x}(t^*)$
$\nabla f(x^*)=\lambda \nabla h(x^*)$

Summary:

$x^*$ is a minimizer of $f:\mathbb{R}^2\rightarrow \mathbb{R}$ with $h(x)=0,h:\mathbb{R}^2\rightarrow \mathbb{R}$ . Then, $\nabla h(x^*)$ and $\nabla f(x^*)$ are parallel.
$\Rightarrow$ If $\nabla h(x^*)\neq 0$ , then $\exist \lambda^*$ s.t. $\nabla f(x^*)+\lambda^*\nabla h(x^*)=0$

Lagrange’s Theorem[FONC]

$x^*$ is a local minimizer of $f:\mathbb{R}^n\rightarrow\mathbb{R}$ , subject to $h:\mathbb{R}^n\rightarrow\mathbb{R}^m,m\leq n$ . Assume $x^*$ is regular. Then $\exist x^*\in \mathbb{R}^m$ s.t. $Df(x^*)+{\lambda^*}^TDh(x^*)=0$

Lagrange’s Function

Lagrange’s function: $l:\mathbb{R}^n\times\mathbb{R}^m\rightarrow \mathbb{R}$
$l(x,\lambda)=f(x)+\lambda^Th(x)$

min $l(x,\lambda)\Leftarrow$ FONC
$Dl(x^*,\lambda^*)=0\Rightarrow \begin{cases} D_xl(x^*,\lambda^*)=0\\ D_{\lambda}l(x^*,\lambda^*)=0 \end{cases}$

Example 1

已知长方体的表面积为 $A$ ，求体积的最大值。
max $x_1x_2x_3$
s.t. $x_1x_2+x_2x_3+x_1x_3=\frac{A}{2}(A>0)$
$f(x)=-x_1x_2x_3,h(x)=x_1x_2+x_2x_3+x_1x_3-\frac{A}{2}$
$\nabla f(x)=[-x_2x_3,-x_1x_3,-x_1x_2]^T$
$\nabla h(x)=[x_2+x_3,x_1+x_3,x_1+x_2]^T$
All feasible solutions are regular.
$\lambda\in\mathbb{R}$
$\begin{cases} \nabla f(x)+\lambda \nabla h(x)=0\\ h(x)=0 \end{cases}\Rightarrow \begin{cases} x_2x_3-\lambda(x_2+x_3)=0\\ x_1x_3-\lambda(x_1+x_3)=0\\ x_1x_2-\lambda(x_1+x_2)=0\\ x_1x_2+x_2x_3+x_1x_3-\frac{A}{2}=0 \end{cases}$

当 $x_1=x_2=x_3=\sqrt{\frac{A}{6}}$ 时，取到最值

Example 2

$f(x)=x_1^2+x_2^2,h(x)=x_1^2+2x_2^2-1$
$\nabla f(x)=\begin{bmatrix} 2x_1\\ 2x_2 \end{bmatrix},\nabla h(x)=\begin{bmatrix} 2x_1\\ 4x_2 \end{bmatrix}$
All feasible solutions are regular.
$\begin{cases} \nabla f(x)+\lambda \nabla h(x)=0\\ h(x)=0 \end{cases}\Rightarrow \begin{cases} 2x_1+2\lambda x_1=0\\ 2x_2+4\lambda x_2=0\\ x_1^2+2x_2^2=1 \end{cases}$

either $x_1=0$ or $\lambda=-1$

$\lambda=-1\Rightarrow\begin{cases} x_1=\pm 1\\ x_2=0 \end{cases}$

$x_1=0\Rightarrow\begin{cases} \lambda=-\frac{1}{2}\\ x_2=\pm \frac{1}{\sqrt{2}} \end{cases}$

$f(\begin{bmatrix} 1\\ 0 \end{bmatrix})=f(\begin{bmatrix} -1\\ 0 \end{bmatrix})=1$

$f(\begin{bmatrix} 0\\ \frac{1}{\sqrt{2}} \end{bmatrix})=f(\begin{bmatrix} 0\\ -\frac{1}{\sqrt{2}} \end{bmatrix})=\frac{1}{2}$

当 $x_1=0,x_2=\pm \frac{1}{\sqrt{2}}$ 时，取到最小值 $\frac{1}{2}$

Example 3

min $x^TQx$
s.t. $x^TPx=1$
$P,Q>0,P^T=P,Q^T=Q$

$f(x)=-x^TQx,h(x)=x^TPx-1$
$l(x,\lambda)=x^TQx+\lambda(1-x^TPx)$
$D_xl(x,\lambda)=2x^TQ-2\lambda x^TP=0\Rightarrow (\lambda P-Q)x=0\Rightarrow P^{-1}Qx=\lambda x\Rightarrow \lambda,x$ are $P^{-1}Q$ ’s eigenvalue and eigenvector
$D_{\lambda}l(x,\lambda)=1-x^TPx=0$

$Qx=P\lambda x$
$\Rightarrow x^TQx=\lambda x^TPx$
$\Rightarrow x^TQx=\lambda$
$\Rightarrow \lambda^*:$ maximal eigenvalue of $P^{-1}Q$

SONC

Assume $f:\mathbb{R}^n\rightarrow \mathbb{R},h:\mathbb{R}^n\rightarrow \mathbb{R}^m$ twice continuously differentiable.
$l(x,\lambda)=f(x)+\lambda^Th(x)=f(x)+\lambda_1h_1(x)+\cdots+\lambda_mh_m(x)$
$L(x,\lambda)=F(x)+\lambda_1H_1(x)+\cdots+\lambda_mH_m(x)$

Thm(SONC): $x^*$ a local minimizer of $f:\mathbb{R}^n\rightarrow \mathbb{R}$ with $h(x)=0,h:\mathbb{R}^n\rightarrow \mathbb{R}^m,m\leq n,f,h\in C^2$ . Then, $\exist \lambda^*\in \mathbb{R}^m$ , s.t. $\begin{cases} Df(x^*)+{\lambda^*}^TDh(x^*)=0\\ \forall y\in T(x^*)=\{y:Dh(x^*)y=0\}:y^TL(x^*,\lambda^*)y\geq 0 \end{cases}$

SOSC

$f,h\in C^2$ , If $\exist x^*\in\mathbb{R}^n,\lambda^*\in \mathbb{R}^m$ , s.t.

$Df(x^*)+{\lambda^*}^TDh(x^*)=0$
$\forall y\in T(x^*):y^TL(x^*,\lambda^*)y>0$

then $x^*$ is a strict local minimizer of $f (x)$ w.r.t. $h (x) = 0$

Example 1

max $x^TQx$
s.t. $x^TPx=1$

$Q=\begin{bmatrix} 4&0\\ 0&1 \end{bmatrix},P=\begin{bmatrix} 2&0\\ 0&1 \end{bmatrix}$

$P^{-1}Q=\begin{bmatrix} 2&0\\ 0&1 \end{bmatrix}$
$\Rightarrow \lambda_1=2,\lambda_2=1$
$\Rightarrow \lambda^*=2$
$\Rightarrow x^*=[\frac{1}{\sqrt{2}},0]^T$ or $x^*=[-\frac{1}{\sqrt{2}},0]^T$

Example 2

Consider min $\frac{1}{2}x^TQx$
s.t. $A x = b$

$Q>0,Q=Q^T,A\in\mathbb{R}^{m\times n},m\leq n, b\in\mathbb{R}^m,rankA=m$

$l(x,\lambda)=\frac{1}{2}x^TQx+\lambda^T(b-Ax)$
$D_xl(x,\lambda)=x^TQ-\lambda^TA=0$
$\Rightarrow x=Q^{-1}A^T\lambda$
$\Rightarrow Ax=AQ^{-1}A^T\lambda$
$\Rightarrow \lambda=(AQ^{-1}A^T)^{-1}b$
$\Rightarrow x=Q^{-1}A^T(AQ^{-1}A^T)^{-1}b$

$L(x,\lambda)=Q>0$

Case 2

min $f (x)$
s.t. $h (x) = 0$
$g(x)\leq 0$

$f:\mathbb{R}^n\rightarrow \mathbb{R}$
$h:\mathbb{R}^n\rightarrow \mathbb{R}^m,m\leq n$
$g:\mathbb{R}^n\rightarrow \mathbb{R}^p$

Definition

Def: An inequality constraint $g_j(x)\leq 0$ is called active at $x^*$ , if $g_j(x^*)=0$ ; otherwise, inactive.

Def: Let $x^*$ satisfy $h(x^*)=0$ and $g(x^*)\leq 0$ . Let $J(x^*)=\{j: g_j(x^*)=0\},x^*$ is called regular, if $\nabla h_i(x^*)$ for all $1\leq i\leq m$ and $\nabla g_i(x^*)$ for all $j\in J(x^*)$ are linear independent.

KKT-Theorem(FONC)

Let $f,h,g\in C^1, x^*$ be a regular point and a local minimizer of $f (x)$ w.r.t. $h(x^*)=0$ and $g(x^*)\leq 0$ . Then, there exist $\lambda^*\in\mathbb{R}^m$ and $\mu^*\in\mathbb{R}^p$ s.t.

$\mu^*\geq 0$
$Df(x^*)+{\lambda^*}^TDh(x^*)+{\mu^*}^TDg(x^*)=0$
${\mu^*}^Tg(x^*)=0$

Example 1

min $-\frac{400R}{(10+R)^2}$
s.t. $-R\leq 0$

$\nabla f(R)=-\frac{400(10-R)}{(10+R)^3}$

$\begin{cases} \mu\geq 0\\ Df(x^*)+{\lambda^*}^TDh(x^*)+{\mu^*}^TDg(x^*)=0\\ \mu^T g(x)=0\\ g(x)\leq 0\\ h(x)=0 \end{cases}$

$\Rightarrow \begin{cases} \mu\geq 0\\ -\frac{400(10-R)}{(10+R)^3}-\mu=0\\ \mu R=0\\ R\geq 0 \end{cases}$

If $\mu>0$ , then $R=0,\mu=-4$ （✕）
If $\mu=0\Rightarrow R=10$ （✓ ）

Example 2

min $-\frac{4000}{(10+R)^2}$
s.t. $- R < 0$

$\nabla f(R)=\frac{8000}{(10+R)^3}$

KKT: $\begin{cases} \mu\geq 0\\ \frac{8000}{(10+R)^3}-\mu=0\\ \mu R=0\\ R\geq 0 \end{cases}$

$\mu=0\Rightarrow$ no solution（✕）
$\mu>0\Rightarrow R=0,\mu=8$ （✓ ）

总结

这节课主要介绍了非线性约束优化问题。按照不同的约束条件，把问题分为了两种情形。第一种情形是只有等式约束，第二种情形既有等式约束又有不等式约束。在第一种情形下，重点介绍了拉格朗日条件，并在二维情况下推导出了拉格朗日条件。由于拉格朗日条件是一阶必要条件（FONC），又进一步介绍了用拉格朗日条件来求最值的拉格朗日乘数法。然后简要地介绍了二阶必要条件（SONC）和二阶充分条件（SOSC）。最后考虑了第二种情形，并给出了KKT条件。

liuzibujian

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
高级优化理论与方法（十三）

这节课主要介绍了非线性约束优化问题。按照不同的约束条件，把问题分为了两种情形。第一种情形是只有等式约束，第二种情形既有等式约束又有不等式约束。在第一种情形下，重点介绍了拉格朗日条件，并在二维情况下推导出了拉格朗日条件。由于拉格朗日条件是一阶必要条件（FONC），又进一步介绍了用拉格朗日条件来求最值的拉格朗日乘数法。然后简要地介绍了二阶必要条件（SONC）和二阶充分条件（SOSC）。最后考虑了第二种情形，并给出了KKT条件。
复制链接

扫一扫