无约束的优化问题
m
i
n
f
(
x
)
,
f
∈
C
2
1.
必
要
条
件
,
局
部
极
小
值
点
x
∗
需
要
:
∇
f
(
x
∗
)
=
0
,
∇
2
f
(
x
∗
)
≥
0
2.
充
分
条
件
,
局
部
极
小
值
点
x
∗
:
∇
f
(
x
∗
)
=
0
,
∇
2
f
(
x
∗
)
>
0
minf(x) \ \ \ \ ,f\in C^2\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \\ 1.必要条件,局部极小值点x^*需要:\nabla f(x^*)=0,\nabla^2 f(x^*)\geq 0\\ 2.充分条件,局部极小值点x^*:\nabla f(x^*)=0,\nabla^2 f(x^*)> 0
minf(x) ,f∈C2 1.必要条件,局部极小值点x∗需要:∇f(x∗)=0,∇2f(x∗)≥02.充分条件,局部极小值点x∗:∇f(x∗)=0,∇2f(x∗)>0
例
:
f
(
x
)
=
1
2
∣
∣
A
x
−
b
∣
∣
2
,
r
a
n
k
(
A
m
,
n
)
=
m
≤
n
,
b
∈
R
m
解
:
标
准
的
二
次
函
数
的
形
式
:
f
(
x
)
=
1
2
(
A
x
−
b
)
t
(
A
x
−
b
)
=
1
2
(
x
t
A
t
−
b
t
)
(
A
x
−
b
)
=
1
2
x
t
A
t
A
x
−
(
A
t
b
)
t
x
+
1
2
b
t
b
形
式
:
1
2
x
t
P
x
−
(
Q
)
t
x
+
1
2
B
则
:
∇
f
(
x
∗
)
=
A
t
A
x
−
A
t
b
,
∇
2
f
(
x
∗
)
=
P
=
A
t
A
r
a
n
k
(
A
m
,
n
)
=
m
A
t
A
>
0
(
自
然
满
足
)
{
m
i
n
f
(
x
)
=
1
2
∣
∣
A
x
−
b
∣
∣
2
A
t
A
x
=
A
t
b
x
∗
=
(
A
t
A
)
−
1
A
t
b
例:f(x)=\frac{1}{2}||Ax-b||^2\ \ ,\ \ rank(A_{m,n})=m\leq n\ \ ,b\in R^m\\ 解:\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \\ 标准的二次函数的形式:f(x)=\frac{1}{2}(Ax-b)^t(Ax-b) \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \\ =\frac{1}{2}(x^tA^t-b^t)(Ax-b)=\frac{1}{2}x^tA^tAx-(A^tb)^t x+\frac12b^tb \\ 形式:\frac{1}{2}x^tPx-(Q)^t x+\frac12B \\ 则:\nabla f(x^*)=A^tAx-A^tb ,\nabla^2 f(x^*)=P=A^tA\\ rank(A_{m,n})=m \ \ \ A^tA> 0(自然满足)\\ \left\{\begin{array}{l}min \ f(x)=\frac{1}{2}||Ax-b||^2\\A^tAx=A^tb\end{array}\right. x^*=(A^tA)^{-1}A^tb
例:f(x)=21∣∣Ax−b∣∣2 , rank(Am,n)=m≤n ,b∈Rm解: 标准的二次函数的形式:f(x)=21(Ax−b)t(Ax−b) =21(xtAt−bt)(Ax−b)=21xtAtAx−(Atb)tx+21btb形式:21xtPx−(Q)tx+21B则:∇f(x∗)=AtAx−Atb,∇2f(x∗)=P=AtArank(Am,n)=m AtA>0(自然满足){min f(x)=21∣∣Ax−b∣∣2AtAx=Atbx∗=(AtA)−1Atb
例
:
m
i
n
f
(
x
)
=
1
2
∣
∣
A
x
−
b
∣
∣
2
+
λ
2
∣
∣
x
∣
∣
2
λ
>
0
将
以
上
的
x
看
成
I
x
−
0
∗
I
,
{
∇
f
(
x
∗
)
=
A
t
A
x
−
A
t
b
+
λ
x
∇
2
f
(
x
∗
)
=
A
t
A
+
λ
I
,
其
中
∇
2
f
(
x
∗
)
=
A
t
A
+
λ
I
,
x
t
(
∇
2
f
(
x
∗
)
)
x
=
∣
∣
A
x
∣
∣
2
+
λ
∣
∣
x
∣
∣
2
≥
0
,
因
为
x
≠
0
,
所
以
其
严
格
大
于
0
例: min \ f(x)=\frac{1}{2}||Ax-b||^2+\frac{\lambda}{2}||x||^2 \ \ \ \lambda >0 \\ 将以上的x看成Ix-0*I,\left\{\begin{array}{l}\nabla f(x^*)=A^tAx-A^tb+\lambda x \\\nabla^2 f(x^*)=A^tA+\lambda I\end{array}\right.,\\ 其中\nabla^2 f(x^*)=A^tA+\lambda I,x^t(\nabla^2 f(x^*))x=||Ax||^2+\lambda||x||^2\geq0,因为x\neq 0,所以其严格大于0\\
例:min f(x)=21∣∣Ax−b∣∣2+2λ∣∣x∣∣2 λ>0将以上的x看成Ix−0∗I,{∇f(x∗)=AtAx−Atb+λx∇2f(x∗)=AtA+λI,其中∇2f(x∗)=AtA+λI,xt(∇2f(x∗))x=∣∣Ax∣∣2+λ∣∣x∣∣2≥0,因为x=0,所以其严格大于0
∇
f
(
x
∗
)
=
A
t
A
x
−
A
t
b
+
λ
x
=
0
⇒
(
A
t
A
+
λ
)
x
=
A
t
b
⇒
x
=
(
A
t
A
+
λ
)
−
1
A
t
b
\nabla f(x^*)=A^tAx-A^tb+\lambda x =0 \Rightarrow (A^tA+\lambda) x =A^tb\Rightarrow x=(A^tA+\lambda) ^{-1}A^tb
∇f(x∗)=AtAx−Atb+λx=0⇒(AtA+λ)x=Atb⇒x=(AtA+λ)−1Atb
有约束的优化问题
线性约束
{
m
i
n
f
(
x
)
线
性
约
束
A
x
=
b
,
f
∈
C
2
r
a
n
k
(
A
m
,
n
)
=
m
对
于
线
性
方
程
组
A
x
=
b
可
求
出
解
x
=
x
∗
+
y
{
y
:
A
y
=
0
,
矩
阵
A
的
零
空
间
,
d
i
m
(
N
(
A
)
)
=
n
−
m
}
x
=
x
∗
+
y
=
x
∗
+
B
n
,
n
−
p
y
,
y
∈
R
n
−
p
{
m
i
n
f
(
x
)
线
性
约
束
A
x
=
b
(
有
约
束
)
⇒
m
i
n
f
(
x
∗
+
B
y
)
,
y
∈
R
n
−
p
(
无
约
束
)
令
e
=
B
y
,
f
(
x
∗
+
e
)
=
f
(
x
∗
)
+
∇
f
(
x
∗
)
t
e
+
1
2
∇
2
f
(
x
∗
)
e
+
o
(
∣
∣
e
∣
∣
2
)
,
带
入
B
y
并
且
记
f
(
x
∗
+
B
y
)
=
g
(
y
)
,
(
f
−
x
∗
极
小
,
g
−
0
极
小
)
则
∇
g
(
0
)
=
B
t
∇
f
(
x
∗
)
,
∇
2
g
(
0
)
=
B
t
∇
2
f
(
x
∗
)
B
\left\{\begin{array}{l}minf(x)\\线性约束Ax=b\end{array}\right. \ \ \ \ ,f\in C^2\ \ \ rank(A_{m,n})=m \ \ \ \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \\ 对于线性方程组Ax=b可求出解x=x^*+y\{y:Ay=0,矩阵A的零空间,dim(N(A))=n-m\}\\ x=x^*+y=x^*+B_{n,n-p}y,y\in R^{n-p}\\ \left\{\begin{array}{l}minf(x)\\线性约束Ax=b\end{array}\right. (有约束)\Rightarrow min\ \ f(x^*+By)\ ,y\in R^{n-p}(无约束)\\ 令e=By,f(x^*+e)=f(x^*)+\nabla f(x^*)^te+\frac12\nabla ^2 f(x^*)e+o(||e||^2),带入By\\ 并且记f(x^*+By)=g(y),(f-x^*极小,g-0极小)\\ 则\nabla g(0)=B^t\nabla f(x^*),\nabla ^2g(0)=B^t\nabla ^2f(x^*)B \\
{minf(x)线性约束Ax=b ,f∈C2 rank(Am,n)=m 对于线性方程组Ax=b可求出解x=x∗+y{y:Ay=0,矩阵A的零空间,dim(N(A))=n−m}x=x∗+y=x∗+Bn,n−py,y∈Rn−p{minf(x)线性约束Ax=b(有约束)⇒min f(x∗+By) ,y∈Rn−p(无约束)令e=By,f(x∗+e)=f(x∗)+∇f(x∗)te+21∇2f(x∗)e+o(∣∣e∣∣2),带入By并且记f(x∗+By)=g(y),(f−x∗极小,g−0极小)则∇g(0)=Bt∇f(x∗),∇2g(0)=Bt∇2f(x∗)B
实
际
上
B
t
∇
f
(
x
∗
)
是
等
价
于
拉
格
朗
日
乘
子
法
的
实际上B^t\nabla f(x^*)是等价于\href {https://blog.csdn.net/ResumeProject/article/details/109300992}{拉格朗日乘子法}的
实际上Bt∇f(x∗)是等价于拉格朗日乘子法的
{
m
i
n
f
(
x
)
线
性
约
束
A
x
=
b
,
x
∗
局
部
极
小
⇒
∂
x
L
(
x
∗
,
μ
)
=
0
其
中
L
(
x
∗
,
μ
)
=
f
(
x
)
+
μ
t
(
A
x
−
b
)
\left\{\begin{array}{l}minf(x)\\线性约束Ax=b\end{array}\right. ,x^*局部极小\Rightarrow\partial _x L(x^*,\mu)=0\\ 其中L(x^*,\mu )=f(x)+\mu ^t(Ax-b)
{minf(x)线性约束Ax=b,x∗局部极小⇒∂xL(x∗,μ)=0其中L(x∗,μ)=f(x)+μt(Ax−b)
01h19min
例
:
{
m
i
n
∑
1
n
x
i
l
o
g
x
i
∑
x
i
=
1
L
(
x
,
μ
)
=
∑
1
n
x
i
l
o
g
x
i
+
μ
(
∑
x
i
−
1
)
∂
x
L
=
0
⇒
∂
x
i
L
=
0
⇒
1
+
l
o
g
x
i
+
μ
=
0
x
i
=
e
−
1
−
μ
(
x
i
=
1
n
)
然
后
需
要
验
证
:
B
t
∇
2
f
(
x
)
B
>
0
,
∇
2
f
(
x
)
=
[
1
x
1
1
x
i
1
x
n
]
,
B
满
秩
→
B
t
∇
2
f
(
x
)
B
>
0
例:\left\{\begin{array}{l}min \ \ \sum_1^n x_ilogx_i\\\sum x_i=1\end{array}\right.\\ L(x,\mu)=\sum_1^n x_ilogx_i +\mu(\sum x_i-1)\\ \partial _xL=0 \Rightarrow \partial _{x_i} L=0 \Rightarrow 1+log{x_i}+\mu=0 \\ x_i=e^{-1-\mu}(x_i=\frac1n)\\ 然后需要验证:B^t\nabla^2f(x)B>0,\nabla^2f(x)=\begin{bmatrix}\frac{1}{x_1}&&\\&\frac{1}{x_i}&\\&&\frac{1}{x_n}\end{bmatrix},B满秩\rightarrow B^t\nabla^2f(x)B>0
例:{min ∑1nxilogxi∑xi=1L(x,μ)=1∑nxilogxi+μ(∑xi−1)∂xL=0⇒∂xiL=0⇒1+logxi+μ=0xi=e−1−μ(xi=n1)然后需要验证:Bt∇2f(x)B>0,∇2f(x)=⎣⎡x11xi1xn1⎦⎤,B满秩→Bt∇2f(x)B>0
例
:
{
m
i
n
∣
∣
y
−
x
∣
∣
2
a
t
x
=
b
常
值
a
,
y
∈
R
n
,
b
∈
R
约
束
a
t
x
=
∑
1
n
a
i
x
i
=
b
是
n
维
空
间
中
的
一
个
n
−
1
维
超
平
面
,
即
最
小
值
为
y
到
超
平
面
的
投
影
长
度
L
(
x
,
μ
)
=
∣
∣
y
−
x
∣
∣
2
+
μ
(
a
t
x
−
b
)
∂
x
L
=
0
⇒
∂
x
L
=
2
(
x
−
y
)
+
μ
a
=
0
{
2
(
x
−
y
)
+
μ
a
=
0
a
t
x
=
b
⇒
2
a
t
(
x
−
y
)
=
μ
a
t
a
,
2
b
−
2
a
t
y
=
μ
∣
∣
a
∣
∣
2
μ
=
2
b
−
2
a
t
y
∣
∣
a
∣
∣
2
(
常
量
,
可
解
出
x
)
例:\left\{\begin{array}{l}min ||y-x||^2\\a^tx=b\end{array}\right.\\ 常值a,y\in R^n,b\in R\\ 约束a^tx=\sum_1^na_ix_i=b \ \ 是n维空间中的一个n-1维超平面,即最小值为y到超平面的投影长度 \\ L(x,\mu)=||y-x||^2+\mu(a^tx-b)\\ \partial _xL=0 \Rightarrow \partial _{x} L=2(x-y)+\mu a=0 \\ \left\{\begin{array}{l}2(x-y)+\mu a=0\\a^tx=b\end{array}\right.\Rightarrow 2a^t(x-y)=\mu a^ta,2b-2a^ty=\mu ||a||^2\\ \mu=\frac{2b-2a^ty}{||a||^2}(常量,可解出x)
例:{min∣∣y−x∣∣2atx=b常值a,y∈Rn,b∈R约束atx=1∑naixi=b 是n维空间中的一个n−1维超平面,即最小值为y到超平面的投影长度L(x,μ)=∣∣y−x∣∣2+μ(atx−b)∂xL=0⇒∂xL=2(x−y)+μa=0{2(x−y)+μa=0atx=b⇒2at(x−y)=μata,2b−2aty=μ∣∣a∣∣2μ=∣∣a∣∣22b−2aty(常量,可解出x)
例
:
{
m
i
n
∣
∣
y
−
x
∣
∣
2
A
x
=
b
L
(
x
,
μ
)
=
∣
∣
y
−
x
∣
∣
2
+
μ
t
(
A
x
−
b
)
例:\left\{\begin{array}{l}min ||y-x||^2\\Ax=b\end{array}\right.\\ L(x,\mu)=||y-x||^2+\mu^t(Ax-b)\\
例:{min∣∣y−x∣∣2Ax=bL(x,μ)=∣∣y−x∣∣2+μt(Ax−b)
非线性约束
例 : { m i n ∣ ∣ y − x ∣ ∣ 2 h i ( x ) = 0 , i ∈ [ 1 , p ] , x ∈ R n 解 空 间 局 部 参 数 化 g : ( − 1 , 1 ) → R n , g ( 0 ) = x ∗ , R ( g ) = D ( f ( x ) 的 定 义 域 ) h i ( g ) = 0 x ∗ 局 部 极 小 ⇒ 0 为 f ∗ g 局 部 极 小 ⇒ ( f ∗ g ) ′ ( 0 ) = 0 , ( f ∗ g ) ′ ′ ( 0 ) ≥ 0 又 h i ∗ g = 0 , ( h i ∗ g ) ′ ( 0 ) = 0 , ( h i ∗ g ) ′ ′ ( 0 ) = 0 以 及 g 的 任 意 性 ⇒ 解 x ∗ 的 必 要 条 件 例:\left\{\begin{array}{l}min ||y-x||^2\\h_i(x)=0,i\in [1,p],x\in R^n\end{array}\right.\\ 解空间局部参数化\\ g:(-1,1)\rightarrow R^n,g(0)=x^*,R(g)=D(f(x)的定义域)\\ h_i(g)=0\\ x^*局部极小 \Rightarrow 0为f*g局部极小\\ \Rightarrow (f*g)'(0)=0,(f*g)''(0)\geq0\\ 又h_i*g=0,(h_i*g)'(0)=0,(h_i*g)''(0)=0\\ 以及g的任意性\Rightarrow 解x^*的必要条件\\ 例:{min∣∣y−x∣∣2hi(x)=0,i∈[1,p],x∈Rn解空间局部参数化g:(−1,1)→Rn,g(0)=x∗,R(g)=D(f(x)的定义域)hi(g)=0x∗局部极小⇒0为f∗g局部极小⇒(f∗g)′(0)=0,(f∗g)′′(0)≥0又hi∗g=0,(hi∗g)′(0)=0,(hi∗g)′′(0)=0以及g的任意性⇒解x∗的必要条件