前置知识
凸函数
设函数
f
:
C
→
R
f: C\to \mathbb{R}
f:C→R是定义在凸集
C
⊆
R
n
C\subseteq \mathbb{R}^n
C⊆Rn的,
如果
f
(
θ
x
+
(
1
−
θ
)
y
)
≤
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
∀
x
1
,
x
2
∈
C
,
λ
∈
[
0
,
1
]
f(\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y})\le \theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})\quad \forall \boldsymbol{x}_1,\boldsymbol{x}_2\in C,\lambda \in \left[0,1\right]
f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)∀x1,x2∈C,λ∈[0,1]
则称
f
f
f为凸函数
严格凸函数
设函数
f
:
C
→
R
f: C\to \mathbb{R}
f:C→R是定义在凸集
C
⊆
R
n
C\subseteq \mathbb{R}^n
C⊆Rn的,
如果
f
(
θ
x
+
(
1
−
θ
)
y
)
≤
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
∀
x
1
,
x
2
∈
C
,
x
1
≠
x
2
,
λ
∈
(
0
,
1
)
f(\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y})\le \theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})\quad \forall \boldsymbol{x}_1,\boldsymbol{x}_2\in C,\mathbf{x}_1\neq \mathbf{x}_2,\lambda \in \left(0,1\right)
f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)∀x1,x2∈C,x1=x2,λ∈(0,1)
则称
f
f
f为严格凸函数
强凸函数
若
∃
m
>
0
\exists m>0
∃m>0,使得
g
(
x
)
=
f
(
x
)
−
m
2
∥
x
∥
2
g(\boldsymbol{x})=f(\boldsymbol{x})-\frac{m}{2}\Vert x\Vert^2
g(x)=f(x)−2m∥x∥2
为凸函数,则称
f
(
x
)
f(\boldsymbol{x})
f(x)为强凸函数,其中
m
m
m为强凸参数
f
(
θ
x
+
(
1
−
θ
)
y
)
=
g
(
θ
x
+
(
1
−
θ
)
y
)
+
m
2
∥
θ
x
+
(
1
−
θ
)
y
∥
2
≤
θ
g
(
x
)
+
(
1
−
θ
)
g
(
y
)
+
m
2
∥
θ
x
+
(
1
−
θ
)
y
∥
2
=
θ
f
(
x
)
−
m
2
θ
∥
x
∥
2
+
(
1
−
θ
)
f
(
y
)
−
m
2
(
1
−
θ
)
∥
y
∥
2
+
m
2
∥
θ
x
+
(
1
−
θ
)
y
∥
2
=
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
+
m
2
(
∥
θ
x
+
(
1
−
θ
)
y
∥
2
−
θ
∥
x
∥
2
−
(
1
−
θ
)
∥
y
∥
2
)
=
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
+
m
2
(
∑
(
θ
x
i
+
(
1
−
θ
)
y
i
)
2
−
θ
∑
x
i
2
−
(
1
−
θ
)
∑
y
i
2
)
=
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
+
m
2
(
θ
(
θ
−
1
)
∑
x
i
2
−
(
1
−
θ
)
θ
∑
y
i
2
+
2
θ
(
1
−
θ
)
∑
x
i
y
i
)
=
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
−
m
2
θ
(
1
−
θ
)
(
∑
x
i
2
+
∑
y
i
2
−
2
∑
x
i
y
i
)
=
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
−
m
2
θ
(
1
−
θ
)
∥
x
−
y
∥
2
\begin{aligned} &\quad f(\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y})\\ &=g(\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y})+\frac{m}{2}\Vert \theta \boldsymbol{x}+(1-\theta)\boldsymbol{y}\Vert^2\\ &\le \theta g(\boldsymbol{x})+(1-\theta)g(\boldsymbol{y})+\frac{m}{2}\Vert \theta \boldsymbol{x}+(1-\theta)\boldsymbol{y}\Vert^2\\ &=\theta f(\boldsymbol{x})-\frac{m}{2}\theta\Vert \boldsymbol{x}\Vert^2+(1-\theta)f(\boldsymbol{y})-\frac{m}{2}(1-\theta)\Vert \boldsymbol{y}\Vert^2+\frac{m}{2}\Vert \theta \boldsymbol{x}+(1-\theta)\boldsymbol{y}\Vert^2\\ &=\theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})+\frac{m}{2}(\Vert \theta \boldsymbol{x}+(1-\theta)\boldsymbol{y}\Vert^2-\theta\Vert \boldsymbol{x}\Vert^2-(1-\theta)\Vert \boldsymbol{y}\Vert^2)\\ &=\theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})+\frac{m}{2}(\sum (\theta x_i+(1-\theta)y_i)^2-\theta\sum x_i^2-(1-\theta)\sum y_i^2)\\ &=\theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})+\frac{m}{2}(\theta(\theta-1)\sum x_i^2-(1-\theta)\theta\sum y_i^2+2\theta(1-\theta)\sum x_iy_i)\\ &=\theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})-\frac{m}{2}\theta(1-\theta)(\sum x_i^2+\sum y_i^2-2\sum x_iy_i)\\ &=\theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})-\frac{m}{2}\theta(1-\theta)\Vert \boldsymbol{x}-\boldsymbol{y}\Vert^2 \end{aligned}
f(θx+(1−θ)y)=g(θx+(1−θ)y)+2m∥θx+(1−θ)y∥2≤θg(x)+(1−θ)g(y)+2m∥θx+(1−θ)y∥2=θf(x)−2mθ∥x∥2+(1−θ)f(y)−2m(1−θ)∥y∥2+2m∥θx+(1−θ)y∥2=θf(x)+(1−θ)f(y)+2m(∥θx+(1−θ)y∥2−θ∥x∥2−(1−θ)∥y∥2)=θf(x)+(1−θ)f(y)+2m(∑(θxi+(1−θ)yi)2−θ∑xi2−(1−θ)∑yi2)=θf(x)+(1−θ)f(y)+2m(θ(θ−1)∑xi2−(1−θ)θ∑yi2+2θ(1−θ)∑xiyi)=θf(x)+(1−θ)f(y)−2mθ(1−θ)(∑xi2+∑yi2−2∑xiyi)=θf(x)+(1−θ)f(y)−2mθ(1−θ)∥x−y∥2
所以等价定义
若
∃
m
>
0
\exists m>0
∃m>0,使得
∀
x
,
y
∈
d
o
m
f
,
θ
∈
(
0
,
1
)
\forall x,y\in \bold{dom}f,\theta\in(0,1)
∀x,y∈domf,θ∈(0,1)
有
f
(
θ
x
+
(
1
−
θ
)
y
)
≤
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
−
m
2
θ
(
1
−
θ
)
∥
x
−
y
∥
2
f(\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y})\le \theta f(\boldsymbol{x})+(1-\theta)f(\boldsymbol{y})-\frac{m}{2}\theta(1-\theta)\Vert \boldsymbol{x}-\boldsymbol{y}\Vert^2
f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)−2mθ(1−θ)∥x−y∥2
则称
f
(
x
)
f(\boldsymbol{x})
f(x)为强凸函数,其中
m
m
m为强凸参数
凸函数判定
定理1
f
(
x
)
f(\boldsymbol{x})
f(x)是凸函数当且仅当
∀
x
∈
d
o
m
f
,
v
∈
R
n
,
g
:
R
→
R
,
\forall \boldsymbol{x} \in \bold{dom}\ f,\boldsymbol{v}\in\mathbb{R}^n,g:\mathbb{R}\to \mathbb{R},
∀x∈dom f,v∈Rn,g:R→R,
g
(
t
)
=
f
(
x
+
t
v
)
,
d
o
m
g
=
{
t
∣
x
+
t
v
∈
d
o
m
f
}
g(t)=f(\boldsymbol{x}+t\boldsymbol{v}),\bold{dom}\ g=\{t\mid\boldsymbol{x}+t\boldsymbol{v}\in\bold{dom}\ f\}
g(t)=f(x+tv),dom g={t∣x+tv∈dom f}
是凸函数
证明:
必要性:设
f
(
x
)
f(\boldsymbol{x})
f(x)是凸函数
∀
t
1
,
t
2
∈
d
o
m
g
,
θ
∈
(
0
,
1
)
\forall t_1,t_2\in \bold{dom}\ g,\theta\in(0,1)
∀t1,t2∈dom g,θ∈(0,1)
x
+
t
1
v
∈
d
o
m
f
x
+
t
2
v
∈
d
o
m
f
\boldsymbol{x}+t_1\boldsymbol{v}\in\bold{dom}\ f\\ \boldsymbol{x}+t_2\boldsymbol{v}\in\bold{dom}\ f\\
x+t1v∈dom fx+t2v∈dom f
由
d
o
m
f
\bold{dom}\ f
dom f是凸集,立即推
x
+
(
θ
t
1
+
(
1
−
θ
)
t
2
)
v
∈
d
o
m
f
\boldsymbol{x}+(\theta t_1+(1-\theta)t_2)\boldsymbol{v}\in\bold{dom}\ f
x+(θt1+(1−θ)t2)v∈dom f
所以
θ
t
1
+
(
1
−
θ
)
t
2
∈
d
o
m
g
\theta t_1+(1-\theta)t_2\in \bold{dom}\ g
θt1+(1−θ)t2∈dom g,即
d
o
m
g
\bold{dom}\ g
dom g为凸集
g
(
θ
t
1
+
(
1
−
θ
)
t
2
)
=
f
(
x
+
(
θ
t
1
+
(
1
−
θ
)
t
2
)
v
)
=
f
(
θ
(
x
+
t
1
v
)
+
(
1
−
θ
)
(
x
+
t
2
v
)
)
⩽
θ
f
(
x
+
t
1
v
)
+
(
1
−
θ
)
f
(
x
+
t
2
v
)
=
θ
g
(
t
1
)
+
(
1
−
θ
)
g
(
t
2
)
.
\begin{aligned} g\left(\theta t_{1}+(1-\theta) t_{2}\right) &=f\left(\boldsymbol{x}+\left(\theta t_{1}+(1-\theta) t_{2}\right) \boldsymbol{v}\right) \\ &=f\left(\theta\left(\boldsymbol{x}+t_{1} \boldsymbol{v}\right)+(1-\theta)\left(\boldsymbol{x}+t_{2} \boldsymbol{v}\right)\right) \\ & \leqslant \theta f\left(\boldsymbol{x}+t_{1} \boldsymbol{v}\right)+(1-\theta) f\left(\boldsymbol{x}+t_{2} \boldsymbol{v}\right) \\ &=\theta g\left(t_{1}\right)+(1-\theta) g\left(t_{2}\right) . \end{aligned}
g(θt1+(1−θ)t2)=f(x+(θt1+(1−θ)t2)v)=f(θ(x+t1v)+(1−θ)(x+t2v))⩽θf(x+t1v)+(1−θ)f(x+t2v)=θg(t1)+(1−θ)g(t2).
所以
g
(
t
)
g(t)
g(t)是凸函数
充分性:
取
v
=
y
−
x
,
t
1
=
0
,
t
2
=
1
\boldsymbol{v}=\boldsymbol{y}-\boldsymbol{x},t_1=0,t_2=1
v=y−x,t1=0,t2=1
由
d
o
m
g
\bold{dom}\ g
dom g是凸集可知,
θ
⋅
0
+
(
1
−
θ
)
⋅
1
∈
d
o
m
g
\theta\cdot 0+(1-\theta)\cdot 1\in \bold{dom}\ g
θ⋅0+(1−θ)⋅1∈dom g
即
θ
x
+
(
1
−
θ
)
y
∈
d
o
m
f
\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y}\in\bold{dom}\ f
θx+(1−θ)y∈dom f是凸集
g
(
1
−
θ
)
=
g
(
θ
t
1
+
(
1
−
θ
)
t
2
)
⩽
θ
g
(
t
1
)
+
(
1
−
θ
)
g
(
t
2
)
=
θ
g
(
0
)
+
(
1
−
θ
)
g
(
1
)
=
θ
f
(
x
)
+
(
1
−
θ
)
f
(
y
)
\begin{aligned} g(1-\theta) &=g\left(\theta t_{1}+(1-\theta) t_{2}\right) \\ & \leqslant \theta g\left(t_{1}\right)+(1-\theta) g\left(t_{2}\right) \\ &=\theta g(0)+(1-\theta) g(1) \\ &=\theta f(x)+(1-\theta) f(y) \end{aligned}
g(1−θ)=g(θt1+(1−θ)t2)⩽θg(t1)+(1−θ)g(t2)=θg(0)+(1−θ)g(1)=θf(x)+(1−θ)f(y)
g
(
1
−
θ
)
=
f
(
x
+
(
1
−
θ
)
(
y
−
x
)
)
=
f
(
θ
x
+
(
1
−
θ
)
y
)
g(1-\theta)=f( \boldsymbol{x}+(1-\theta)(\boldsymbol{y}- \boldsymbol{x}))=f(\theta \boldsymbol{x}+(1-\theta)\boldsymbol{y})
g(1−θ)=f(x+(1−θ)(y−x))=f(θx+(1−θ)y)
所以
f
(
x
)
f( \boldsymbol{x})
f(x)是凸函数
一阶条件
设
f
:
C
→
R
f:C\to \mathbb{R}
f:C→R是定义在凸集
C
⊆
R
n
C\subseteq \mathbb{R}^n
C⊆Rn的连续可微的函数,那么
f
f
f是凸函数当且仅当
f
(
y
)
⩾
f
(
x
)
+
∇
f
(
x
)
T
(
y
−
x
)
,
∀
x
,
y
∈
C
f(\boldsymbol{y}) \geqslant f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x}), \quad \forall \boldsymbol{x}, \boldsymbol{y} \in C
f(y)⩾f(x)+∇f(x)T(y−x),∀x,y∈C
证明:
必要性:
f
f
f是凸函数
如果
x
=
y
\mathbf{x}=\mathbf{y}
x=y,显然成立
设
x
≠
y
\mathbf{x}\neq \mathbf{y}
x=y
∀
x
,
y
∈
C
\forall \boldsymbol{x},\boldsymbol{y}\in C
∀x,y∈C,以及
λ
∈
(
0
,
1
]
\lambda \in\left(0,1\right]
λ∈(0,1],有
λ
f
(
y
)
+
(
1
−
λ
)
f
(
x
)
⩾
f
(
x
+
λ
(
y
−
x
)
)
f
(
y
)
−
f
(
x
)
⩾
f
(
x
+
λ
(
y
−
x
)
)
−
f
(
x
)
λ
\begin{aligned} \lambda f(\boldsymbol{y})+(1-\lambda) f(\boldsymbol{x}) &\geqslant f(\boldsymbol{x}+\lambda(\boldsymbol{y}-\boldsymbol{x}))\\ f(\boldsymbol{y})-f(\boldsymbol{x}) &\geqslant \frac{f(\boldsymbol{x}+\lambda(\boldsymbol{y}-\boldsymbol{x}))-f(\boldsymbol{x})}{\lambda} \end{aligned}
λf(y)+(1−λ)f(x)f(y)−f(x)⩾f(x+λ(y−x))⩾λf(x+λ(y−x))−f(x)
令
λ
→
0
+
\lambda\to 0^+
λ→0+,利用保号性
f
(
y
)
−
f
(
x
)
⩾
lim
λ
→
0
+
f
(
x
+
λ
(
y
−
x
)
)
−
f
(
x
)
λ
=
∇
f
(
x
)
T
(
y
−
x
)
f(\boldsymbol{y})-f(\boldsymbol{x}) \geqslant \lim _{\lambda \rightarrow 0^+} \frac{f(\boldsymbol{x}+\lambda(\boldsymbol{y}-\boldsymbol{x}))-f(\boldsymbol{x})}{\lambda}=\nabla f(\boldsymbol{x})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x})
f(y)−f(x)⩾λ→0+limλf(x+λ(y−x))−f(x)=∇f(x)T(y−x)
充分性:
设
x
,
y
∈
C
\boldsymbol{x},\boldsymbol{y}\in C
x,y∈C,以及
λ
∈
(
0
,
1
)
\lambda \in(0,1)
λ∈(0,1)
设
z
=
λ
x
+
(
1
−
λ
)
y
\boldsymbol{z}=\lambda\boldsymbol{x}+(1-\lambda)\boldsymbol{y}
z=λx+(1−λ)y
f
(
x
)
⩾
f
(
z
)
+
∇
f
(
z
)
T
(
x
−
z
)
f
(
y
)
⩾
f
(
z
)
+
∇
f
(
z
)
T
(
y
−
z
)
\begin{aligned} &f(\boldsymbol{x}) \geqslant f(\boldsymbol{z})+\nabla f(\boldsymbol{z})^{\mathrm{T}}(\boldsymbol{x}-\boldsymbol{z}) \\ &f(\boldsymbol{y}) \geqslant f(z)+\nabla f(\boldsymbol{z})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{z}) \end{aligned}
f(x)⩾f(z)+∇f(z)T(x−z)f(y)⩾f(z)+∇f(z)T(y−z)
于是
λ
f
(
x
)
+
(
1
−
t
)
f
(
y
)
⩾
f
(
z
)
+
0
=
f
(
λ
x
+
(
1
−
λ
)
y
)
\lambda f(\boldsymbol{x})+(1-t) f(\boldsymbol{y}) \geqslant f(\boldsymbol{z})+0=f(\lambda \boldsymbol{x}+(1-\lambda )\boldsymbol{y})
λf(x)+(1−t)f(y)⩾f(z)+0=f(λx+(1−λ)y)
推论1
定义在凸集上的可微函数
f
f
f,
f
f
f是严格凸函数,当且仅当
f
(
y
)
>
f
(
x
)
+
∇
f
(
x
)
T
(
y
−
x
)
,
∀
x
,
y
∈
dom
f
f(\boldsymbol{y}) > f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x}), \quad \forall \boldsymbol{x}, \boldsymbol{y} \in \operatorname{dom} f
f(y)>f(x)+∇f(x)T(y−x),∀x,y∈domf
推论2
定义在凸集上的可微函数
f
f
f,
f
f
f是强凸函数,当且仅当
f
(
y
)
≥
f
(
x
)
+
∇
f
(
x
)
T
(
y
−
x
)
+
m
2
∥
y
−
x
∥
2
,
∀
x
,
y
∈
dom
f
f(\boldsymbol{y}) \ge f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x})+\frac{m}{2}\Vert \boldsymbol{y}-\boldsymbol{x}\Vert^2, \quad \forall \boldsymbol{x}, \boldsymbol{y} \in \operatorname{dom} f
f(y)≥f(x)+∇f(x)T(y−x)+2m∥y−x∥2,∀x,y∈domf
推论3
设
f
:
R
n
→
R
f:\mathbb{R}^{n}\to \mathbb{R}
f:Rn→R是一个连续可微的凸函数,则
∇
f
(
x
∗
)
=
0
\nabla f(\mathbf{x}^{*})=0
∇f(x∗)=0当且仅当
x
∗
\mathbf{x}^{*}
x∗是一个全局极小值点
证明:
必要性:
∇
f
(
x
∗
)
=
0
\nabla f(\mathbf{x}^{*})=0
∇f(x∗)=0
根据一阶条件
∀
x
∈
dom
f
,
f
(
x
)
⩾
f
(
x
∗
)
+
∇
f
(
x
∗
)
T
(
x
−
x
∗
)
=
f
(
x
∗
)
\forall \mathbf{x}\in \operatorname{dom} f,f(\boldsymbol{x}) \geqslant f(\mathbf{x}^{*})+\nabla f(\mathbf{x}^{*})^{\mathrm{T}}(\boldsymbol{x}-\mathbf{x}^{*})=f(\mathbf{x}^{*})
∀x∈domf,f(x)⩾f(x∗)+∇f(x∗)T(x−x∗)=f(x∗)
充分性:
显然
梯度单调性
设
f
f
f是一个定义在
C
⊆
R
n
C\subseteq \mathbb{R}^n
C⊆Rn的连续可微的函数,则
f
f
f为凸函数当且仅当
(
∇
f
(
x
)
−
∇
f
(
y
)
)
T
(
x
−
y
)
⩾
0
,
∀
x
,
y
∈
C
(\nabla f(\boldsymbol{x})-\nabla f(\boldsymbol{y}))^{\mathrm{T}}(\boldsymbol{x}-\boldsymbol{y}) \geqslant 0, \quad \forall \boldsymbol{x}, \boldsymbol{y} \in C
(∇f(x)−∇f(y))T(x−y)⩾0,∀x,y∈C
证明:
必要性:
f
f
f是凸函数
根据一阶条件
f
(
y
)
⩾
f
(
x
)
+
∇
f
(
x
)
T
(
y
−
x
)
f
(
x
)
⩾
f
(
y
)
+
∇
f
(
y
)
T
(
x
−
y
)
\begin{aligned} &f(\boldsymbol{y}) \geqslant f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x}) \\ &f(\boldsymbol{x}) \geqslant f(\boldsymbol{y})+\nabla f(\boldsymbol{y})^{\mathrm{T}}(\boldsymbol{x}-\boldsymbol{y}) \end{aligned}
f(y)⩾f(x)+∇f(x)T(y−x)f(x)⩾f(y)+∇f(y)T(x−y)
相加得
(
∇
f
(
x
)
−
∇
f
(
y
)
)
T
(
x
−
y
)
⩾
0
,
∀
x
,
y
∈
C
(\nabla f(\boldsymbol{x})-\nabla f(\boldsymbol{y}))^{\mathrm{T}}(\boldsymbol{x}-\boldsymbol{y}) \geqslant 0, \quad \forall \boldsymbol{x}, \boldsymbol{y} \in C
(∇f(x)−∇f(y))T(x−y)⩾0,∀x,y∈C
充分性:
设
g
(
t
)
=
f
(
x
+
t
(
y
−
x
)
)
,
g
′
(
t
)
=
∇
f
(
x
+
t
(
y
−
x
)
)
T
(
y
−
x
)
g(t)=f(\boldsymbol{x}+t(\boldsymbol{y}-\boldsymbol{x})), \quad g^{\prime}(t)=\nabla f(\boldsymbol{x}+t(\boldsymbol{y}-\boldsymbol{x}))^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x})
g(t)=f(x+t(y−x)),g′(t)=∇f(x+t(y−x))T(y−x)
因为
(
∇
f
(
x
+
t
(
y
−
x
)
)
−
∇
f
(
x
)
)
T
t
(
y
−
x
)
⩾
0
(\nabla f(\boldsymbol{x}+t(\boldsymbol{y}-\boldsymbol{x}))-\nabla f(\boldsymbol{x}))^{\mathrm{T}}t(\boldsymbol{y}-\boldsymbol{x}) \geqslant 0
(∇f(x+t(y−x))−∇f(x))Tt(y−x)⩾0
所以
∀
t
>
0
,
g
′
(
t
)
≥
g
′
(
0
)
\forall t>0,g'(t)\ge g'(0)
∀t>0,g′(t)≥g′(0)
f
(
y
)
=
g
(
1
)
=
g
(
0
)
+
∫
0
1
g
′
(
t
)
d
t
⩾
g
(
0
)
+
g
′
(
0
)
=
f
(
x
)
+
∇
f
(
x
)
T
(
y
−
x
)
\begin{aligned} f(\boldsymbol{y}) &=g(1)=g(0)+\int_{0}^{1} g^{\prime}(t) \mathrm{d} t \\ & \geqslant g(0)+g^{\prime}(0)\\ &=f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^{\mathrm{T}}(\boldsymbol{y}-\boldsymbol{x}) \end{aligned}
f(y)=g(1)=g(0)+∫01g′(t)dt⩾g(0)+g′(0)=f(x)+∇f(x)T(y−x)
所以
f
f
f是凸函数
推论1
f
f
f是严格凸函数当且仅当
(
∇
f
(
x
)
−
∇
f
(
y
)
)
T
(
x
−
y
)
>
0
,
∀
x
,
y
∈
dom
f
(\nabla f(\boldsymbol{x})-\nabla f(\boldsymbol{y}))^{\mathrm{T}}(\boldsymbol{x}-\boldsymbol{y}) > 0, \quad \forall \boldsymbol{x}, \boldsymbol{y} \in \operatorname{dom} f
(∇f(x)−∇f(y))T(x−y)>0,∀x,y∈domf
推论2
( ∇ f ( x ) − ∇ f ( y ) ) T ( x − y ) ⩾ m ∥ y − x ∥ 2 , ∀ x , y ∈ dom f (\nabla f(\boldsymbol{x})-\nabla f(\boldsymbol{y}))^{\mathrm{T}}(\boldsymbol{x}-\boldsymbol{y}) \geqslant m\Vert \boldsymbol{y}-\boldsymbol{x}\Vert^2, \quad \forall \boldsymbol{x}, \boldsymbol{y} \in \operatorname{dom} f (∇f(x)−∇f(y))T(x−y)⩾m∥y−x∥2,∀x,y∈domf
二阶条件
设
f
f
f是一个定义在开的凸集
C
⊆
R
n
C\subseteq \mathbb{R}^n
C⊆Rn的二阶连续可微的函数,则
f
f
f是凸函数当且仅当
∇
2
f
(
x
)
⪰
0
\nabla^2 f(\mathbf{x})\succeq 0
∇2f(x)⪰0
证明:
充分性:
∇
2
f
(
x
)
⪰
0
\nabla^2 f(\boldsymbol{x})\succeq0
∇2f(x)⪰0
由
f
(
y
)
=
f
(
x
)
+
∇
f
(
x
)
T
(
y
−
x
)
+
1
2
(
y
−
x
)
T
∇
2
f
(
y
−
x
+
t
(
y
−
x
)
)
(
y
−
x
)
f(\boldsymbol{y})=f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^T(\boldsymbol{y}-\boldsymbol{x})+\frac{1}{2}(\boldsymbol{y}-\boldsymbol{x})^T\nabla^2f(\boldsymbol{y}-\boldsymbol{x}+t(\boldsymbol{y}-\boldsymbol{x}))(\boldsymbol{y}-\boldsymbol{x})
f(y)=f(x)+∇f(x)T(y−x)+21(y−x)T∇2f(y−x+t(y−x))(y−x)
其中
t
∈
(
0
,
1
)
t\in(0,1)
t∈(0,1)
于是
f
(
y
)
≥
f
(
x
)
+
∇
f
(
x
)
T
(
y
−
x
)
f(\boldsymbol{y})\ge f(\boldsymbol{x})+\nabla f(\boldsymbol{x})^T(\boldsymbol{y}-\boldsymbol{x})
f(y)≥f(x)+∇f(x)T(y−x)
必要性:f是凸函数
假设存在非零向量
v
∈
R
n
\boldsymbol{v}\in\mathbb{R}^{n}
v∈Rn,使得
v
T
∇
2
f
(
x
)
v
<
0
\boldsymbol{v}^T\nabla^2f(\boldsymbol{x})\boldsymbol{v}<0
vT∇2f(x)v<0
因为
C
C
C是开集,所以存在足够小的
t
>
0
t>0
t>0,使得
x
+
t
v
∈
C
\boldsymbol{x}+t\boldsymbol{v}\in C
x+tv∈C
f
(
x
+
t
v
)
=
f
(
x
)
+
t
∇
f
(
x
)
T
v
+
t
2
2
v
T
∇
2
f
(
x
)
v
+
o
(
t
2
∥
v
∥
)
f
(
x
+
t
v
)
−
f
(
x
)
+
t
∇
f
(
x
)
T
v
t
2
=
1
2
v
T
∇
2
f
(
x
)
v
+
o
(
t
2
∥
v
∥
)
t
2
\begin{aligned} f(\boldsymbol{x}+t\boldsymbol{v})&=f(\boldsymbol{x})+t\nabla f(\boldsymbol{x})^T\boldsymbol{v}+\frac{t^2}{2}\boldsymbol{v}^T\nabla^2f(\boldsymbol{x})\boldsymbol{v}+o(t^2\| \boldsymbol{v} \|)\\ \frac{f(\boldsymbol{x}+t\boldsymbol{v})-f(\boldsymbol{x})+t\nabla f(\boldsymbol{x})^T\boldsymbol{v}}{t^2}&=\frac{1}{2}\boldsymbol{v}^T\nabla^2f(\boldsymbol{x})\boldsymbol{v}+\frac{o(t^2\| \boldsymbol{v} \|)}{t^2} \end{aligned}
f(x+tv)t2f(x+tv)−f(x)+t∇f(x)Tv=f(x)+t∇f(x)Tv+2t2vT∇2f(x)v+o(t2∥v∥)=21vT∇2f(x)v+t2o(t2∥v∥)
f
(
x
+
t
v
)
−
f
(
x
)
+
t
∇
f
(
x
)
T
v
t
2
≥
0
\frac{f(\boldsymbol{x}+t\boldsymbol{v})-f(\boldsymbol{x})+t\nabla f(\boldsymbol{x})^T\boldsymbol{v}}{t^2}\ge0
t2f(x+tv)−f(x)+t∇f(x)Tv≥0
所以当
t
→
0
+
t\to 0^{+}
t→0+,
∇
2
f
(
x
)
⪰
0
\nabla^2 f(\boldsymbol{x})\succeq0
∇2f(x)⪰0
推论1
设
f
f
f是一个定义在开的凸集
C
⊆
R
n
C\subseteq \mathbb{R}^n
C⊆Rn的二阶连续可微的函数,则
f
f
f是严格凸函数的充分条件是
∇
2
f
(
x
)
≻
0
\nabla^2 f(\mathbf{x})\succ 0
∇2f(x)≻0
(不是必要条件,如
x
4
x^4
x4)
推论2
设
f
f
f是一个定义在开的凸集
C
⊆
R
n
C\subseteq \mathbb{R}^n
C⊆Rn的二阶连续可微的函数,则
f
f
f是强凸函数的充要条件是
∇
2
f
(
x
)
⪰
m
I
\nabla^2f(\mathbf{x})\succeq mI
∇2f(x)⪰mI
保凸运算
数乘
设
f
f
f是定义在凸集
C
⊆
R
n
C\subseteq \mathbb{R}^{n}
C⊆Rn的凸函数
设
α
≥
0
\alpha\ge 0
α≥0,则
α
f
\alpha f
αf是定义在凸集
C
⊆
R
n
C\subseteq \mathbb{R}^{n}
C⊆Rn的凸函数
加法
设
f
1
,
⋯
,
f
p
f_1,\cdots,f_p
f1,⋯,fp是定义在凸集
C
⊆
R
n
C\subseteq \mathbb{R}^{n}
C⊆Rn的凸函数,
则
f
1
+
⋯
+
f
p
f_1+\cdots + f_p
f1+⋯+fp是定义在凸集
C
⊆
R
n
C\subseteq \mathbb{R}^{n}
C⊆Rn的凸函数
线性变换
设
f
:
C
→
R
f:C\to \mathbb{R}
f:C→R是一个定义在凸集
C
⊆
R
n
C\subseteq \mathbb{R}^n
C⊆Rn的函数
设
A
∈
R
n
×
m
,
b
∈
R
n
\mathbf{A}\in\mathbb{R}^{n\times m},\mathbf{b}\in\mathbb{R}^{n}
A∈Rn×m,b∈Rn
则
g
(
y
)
=
f
(
A
y
+
b
)
g(\mathbf{y})=f(\mathbf{Ay}+\mathbf{b})
g(y)=f(Ay+b)
是一个定义在凸集
D
=
{
y
∈
R
m
:
A
y
+
b
∈
C
}
D=\left\{\mathbf{y} \in \mathbb{R}^{m}: \mathbf{A} \mathbf{y}+\mathbf{b} \in C\right\}
D={y∈Rm:Ay+b∈C}的凸函数
证明:
首先
D
D
D是一个由
C
C
C映射的凸集
D
=
A
−
1
(
C
−
b
)
D=\mathrm{A}^{-1}(C-\mathrm{b})
D=A−1(C−b)
设
y
1
,
y
2
∈
D
\mathbf{y}_1,\mathbf{y}_2\in D
y1,y2∈D,设
x
1
=
A
y
1
+
b
∈
C
x
2
=
A
y
2
+
b
∈
C
\begin{aligned} &\mathbf{x}_{1}=\mathrm{A} \mathbf{y}_{1}+\mathrm{b} \in C\\ &\mathbf{x}_{2}=\mathrm{A} \mathbf{y}_{2}+\mathrm{b} \in C \end{aligned}
x1=Ay1+b∈Cx2=Ay2+b∈C
设
λ
∈
[
0
,
1
]
\lambda \in \left[0,1\right]
λ∈[0,1]
f
(
λ
x
1
+
(
1
−
λ
)
x
2
)
≤
λ
f
(
x
1
)
+
(
1
−
λ
)
f
(
x
2
)
f
(
A
(
λ
y
1
+
(
1
−
λ
)
y
2
)
+
b
)
≤
λ
f
(
A
y
1
+
b
)
+
(
1
−
λ
)
f
(
A
y
2
+
b
)
g
(
λ
y
1
+
(
1
−
λ
)
y
2
)
≤
λ
g
(
y
1
)
+
(
1
−
λ
)
g
(
y
2
)
\begin{aligned} f\left(\lambda \mathbf{x}_{1}+(1-\lambda) \mathbf{x}_{2}\right) &\leq \lambda f\left(\mathbf{x}_{1}\right)+(1-\lambda) f\left(\mathbf{x}_{2}\right)\\ f\left(\mathbf{A}\left(\lambda \mathbf{y}_{1}+(1-\lambda) \mathbf{y}_{2}\right)+\mathbf{b}\right) &\leq \lambda f\left(\mathbf{A y}_{1}+\mathbf{b}\right)+(1-\lambda) f\left(\mathbf{A y}_{2}+\mathbf{b}\right)\\ g\left(\lambda \mathbf{y}_{1}+(1-\lambda) \mathbf{y}_{2}\right) &\leq \lambda g\left(\mathbf{y}_{1}\right)+(1-\lambda) g\left(\mathbf{y}_{2}\right) \end{aligned}
f(λx1+(1−λ)x2)f(A(λy1+(1−λ)y2)+b)g(λy1+(1−λ)y2)≤λf(x1)+(1−λ)f(x2)≤λf(Ay1+b)+(1−λ)f(Ay2+b)≤λg(y1)+(1−λ)g(y2)
所以
g
g
g是凸函数
特殊的复合
设
f
:
C
→
R
f:C\to \mathbb{R}
f:C→R是一个定义在凸集
C
⊆
R
n
C\subseteq \mathbb{R}^n
C⊆Rn
设
g
:
I
→
R
g:I\to\mathbb{R}
g:I→R是一个一维的定义在
I
⊆
R
I\subseteq \mathbb{R}
I⊆R的单调不减的凸函数
假设
f
(
C
)
⊆
I
f(C)\subseteq I
f(C)⊆I
那么复合函数
h
(
x
)
≡
g
(
f
(
x
)
)
,
x
∈
C
h(\mathbf{x}) \equiv g(f(\mathbf{x})), \quad \mathbf{x} \in C
h(x)≡g(f(x)),x∈C
是一个定义在凸集
C
C
C上的凸函数
证明:
设
x
,
y
∈
C
,
λ
∈
[
0
,
1
]
\mathbf{x},\mathbf{y}\in C,\lambda\in \left[0,1\right]
x,y∈C,λ∈[0,1]
则
h
(
λ
x
+
(
1
−
λ
)
y
)
=
g
(
f
(
λ
x
+
(
1
−
λ
)
y
)
)
≤
g
(
λ
f
(
x
)
+
(
1
−
λ
)
f
(
y
)
)
≤
λ
g
(
f
(
x
)
)
+
(
1
−
λ
)
g
(
f
(
y
)
)
=
λ
h
(
x
)
+
(
1
−
λ
)
h
(
y
)
\begin{aligned} h(\lambda \mathbf{x}+(1-\lambda) \mathbf{y}) &=g(f(\lambda \mathbf{x}+(1-\lambda) \mathbf{y})) \\ & \leq g(\lambda f(\mathbf{x})+(1-\lambda) f(\mathbf{y})) \\ & \leq \lambda g(f(\mathbf{x}))+(1-\lambda) g(f(\mathbf{y})) \\ &=\lambda h(\mathbf{x})+(1-\lambda) h(\mathbf{y}) \end{aligned}
h(λx+(1−λ)y)=g(f(λx+(1−λ)y))≤g(λf(x)+(1−λ)f(y))≤λg(f(x))+(1−λ)g(f(y))=λh(x)+(1−λ)h(y)
最大值
设
f
1
,
⋯
,
f
p
:
C
→
R
f_1,\cdots,f_p:C\to \mathbb{R}
f1,⋯,fp:C→R是
p
p
p个定义在凸集
C
⊆
R
n
C\subseteq \mathbb{R}^n
C⊆Rn是凸函数,则
f
(
x
)
≡
max
i
=
1
,
2
,
…
,
p
f
i
(
x
)
f(\mathbf{x}) \equiv \max _{i=1,2, \ldots, p} f_{i}(\mathbf{x})
f(x)≡i=1,2,…,pmaxfi(x)
是定义在
C
C
C上的凸函数
证明:
设
x
,
y
∈
C
,
λ
∈
[
0
,
1
]
\mathbf{x},\mathbf{y}\in C,\lambda\in \left[0,1\right]
x,y∈C,λ∈[0,1],则
f
(
λ
x
+
(
1
−
λ
)
y
)
=
max
i
=
1
,
2
,
…
,
p
f
i
(
λ
x
+
(
1
−
λ
)
y
)
≤
max
i
=
1
,
2
,
…
,
p
{
λ
f
i
(
x
)
+
(
1
−
λ
)
f
i
(
y
)
}
≤
λ
max
i
=
1
,
2
,
…
,
p
f
i
(
x
)
+
(
1
−
λ
)
max
i
=
1
,
2
,
…
,
p
f
i
(
y
)
=
λ
f
(
x
)
+
(
1
−
λ
)
f
(
y
)
\begin{aligned} f(\lambda \mathbf{x}+(1-\lambda) \mathbf{y}) &=\max _{i=1,2, \ldots, p} f_{i}(\lambda \mathbf{x}+(1-\lambda) \mathbf{y}) \\ & \leq \max _{i=1,2, \ldots, p}\left\{\lambda f_{i}(\mathbf{x})+(1-\lambda) f_{i}(\mathbf{y})\right\} \\ & \leq \lambda \max _{i=1,2, \ldots, p} f_{i}(\mathbf{x})+(1-\lambda) \max _{i=1,2, \ldots, p} f_{i}(\mathbf{y}) \\ &=\lambda f(\mathbf{x})+(1-\lambda) f(\mathbf{y}) \end{aligned}
f(λx+(1−λ)y)=i=1,2,…,pmaxfi(λx+(1−λ)y)≤i=1,2,…,pmax{λfi(x)+(1−λ)fi(y)}≤λi=1,2,…,pmaxfi(x)+(1−λ)i=1,2,…,pmaxfi(y)=λf(x)+(1−λ)f(y)
最小值
设
f
:
C
×
D
→
R
f:C\times D\to \mathbb{R}
f:C×D→R是一个定义在
C
×
D
C\times D
C×D的凸函数
其中
C
⊆
R
m
,
D
⊆
R
n
C\subseteq \mathbb{R}^m,D\subseteq \mathbb{R}^n
C⊆Rm,D⊆Rn
设
g
(
x
)
=
min
y
∈
D
f
(
x
,
y
)
,
x
∈
C
g(\mathbf{x})=\min _{\mathbf{y} \in D} f(\mathbf{x}, \mathbf{y}), \quad \mathbf{x} \in C
g(x)=y∈Dminf(x,y),x∈C
并且假设
g
g
g有下界
则
g
g
g是定义在
C
C
C上的凸函数
证明:
设
x
1
,
x
2
∈
C
,
λ
∈
[
0
,
1
]
\mathbf{x}_1,\mathbf{x}_2\in C,\lambda \in \left[0,1\right]
x1,x2∈C,λ∈[0,1]
对于
ϵ
>
0
\epsilon>0
ϵ>0
那么存在
y
1
,
y
2
∈
D
\mathbf{y}_1,\mathbf{y}_2\in D
y1,y2∈D,使得
f
(
x
1
,
y
1
)
≤
g
(
x
1
)
+
ε
f
(
x
2
,
y
2
)
≤
g
(
x
2
)
+
ε
\begin{aligned} &f\left(\mathbf{x}_{1}, \mathbf{y}_{1}\right) \leq g\left(\mathbf{x}_{1}\right)+\varepsilon \\ &f\left(\mathbf{x}_{2}, \mathbf{y}_{2}\right) \leq g\left(\mathbf{x}_{2}\right)+\varepsilon \end{aligned}
f(x1,y1)≤g(x1)+εf(x2,y2)≤g(x2)+ε
因为
f
f
f是凸函数
f
(
λ
x
1
+
(
1
−
λ
)
x
2
,
λ
y
1
+
(
1
−
λ
)
y
2
)
≤
λ
f
(
x
1
,
y
1
)
+
(
1
−
λ
)
f
(
x
2
,
y
2
)
≤
λ
(
g
(
x
1
)
+
ε
)
+
(
1
−
λ
)
(
g
(
x
2
)
+
ε
)
=
λ
g
(
x
1
)
+
(
1
−
λ
)
g
(
x
2
)
+
ε
\begin{aligned} f\left(\lambda \mathbf{x}_{1}+(1-\lambda) \mathbf{x}_{2}, \lambda \mathbf{y}_{1}+(1-\lambda) \mathbf{y}_{2}\right) & \leq \lambda f\left(\mathbf{x}_{1}, \mathbf{y}_{1}\right)+(1-\lambda) f\left(\mathbf{x}_{2}, \mathbf{y}_{2}\right) \\ &\leq \lambda\left(g\left(\mathbf{x}_{1}\right)+\varepsilon\right)+(1-\lambda)\left(g\left(\mathbf{x}_{2}\right)+\varepsilon\right) \\ &=\lambda g\left(\mathbf{x}_{1}\right)+(1-\lambda) g\left(\mathbf{x}_{2}\right)+\varepsilon \end{aligned}
f(λx1+(1−λ)x2,λy1+(1−λ)y2)≤λf(x1,y1)+(1−λ)f(x2,y2)≤λ(g(x1)+ε)+(1−λ)(g(x2)+ε)=λg(x1)+(1−λ)g(x2)+ε
于是
g
(
λ
x
1
+
(
1
−
λ
)
x
2
)
≤
λ
g
(
x
1
)
+
(
1
−
λ
)
g
(
x
2
)
+
ε
g\left(\lambda \mathbf{x}_{1}+(1-\lambda) \mathbf{x}_{2}\right) \leq \lambda g\left(\mathbf{x}_{1}\right)+(1-\lambda) g\left(\mathbf{x}_{2}\right)+\varepsilon
g(λx1+(1−λ)x2)≤λg(x1)+(1−λ)g(x2)+ε
因为
ϵ
\epsilon
ϵ有任意性,所以
g
g
g是凸函数
下水平集
定义
设
f
:
S
→
R
f:S\to \mathbb{R}
f:S→R是定义在
S
⊆
R
n
S\subseteq \mathbb{R}^n
S⊆Rn的函数,
则
f
f
f的在下水平(level)
α
\alpha
α下水平集(level sets)
Lev
(
f
,
α
)
=
{
x
∈
S
:
f
(
x
)
≤
α
}
\operatorname{Lev}(f, \alpha)=\{\mathbf{x} \in S: f(\mathbf{x}) \leq \alpha\}
Lev(f,α)={x∈S:f(x)≤α}
显然凸函数的下水平集是凸的
拟凸函数
设
f
:
C
→
R
f:C\to \mathbb{R}
f:C→R是定义在凸集
C
⊆
R
n
C\subseteq \mathbb{R}^n
C⊆Rn的函数
如果对于任意
α
∈
R
\alpha\in\mathbb{R}
α∈R的水平集
Lev
(
f
,
α
)
\operatorname{Lev}(f, \alpha)
Lev(f,α)是凸的,
那么称
f
f
f为拟凸函数
扩充实函数
之前的函数的象都是有限的
定义在
R
n
\mathbb{R}^n
Rn,且像为
R
∪
{
∞
}
=
(
−
∞
,
∞
]
\mathbb{R}\cup \left\{\infty\right\}=\left(-\infty,\infty\right]
R∪{∞}=(−∞,∞]的函数称为扩充实函数(extended Real-Valued Functions)
扩充函数的有效域(effective domain)为
dom
(
f
)
=
{
x
∈
R
n
:
f
(
x
)
<
∞
}
\operatorname{dom}(f)=\left\{\mathbf{x} \in \mathbb{R}^{n}: f(\mathbf{x})<\infty\right\}
dom(f)={x∈Rn:f(x)<∞}
一个扩充实函数
f
:
R
n
→
R
∪
{
∞
}
f:\mathbb{R}^{n}\to \mathbb{R}\cup \left\{\infty\right\}
f:Rn→R∪{∞}
如果存在
x
0
∈
R
n
\mathbf{x}_0\in\mathbb{R}^n
x0∈Rn,使得
f
(
x
0
)
<
∞
f(\mathbf{x}_0)<\infty
f(x0)<∞
则
f
f
f称为正常函数
与之前凸函数的定义类似
扩充实函数是凸函数,如果
∀
x
,
y
∈
R
n
,
λ
∈
[
0
,
1
]
\forall \mathbf{x},\mathbf{y}\in\mathbb{R}^n,\lambda\in\left[0,1\right]
∀x,y∈Rn,λ∈[0,1],有
f
(
λ
x
+
(
1
−
λ
)
y
)
≤
λ
f
(
x
)
+
(
1
−
λ
)
f
(
y
)
f(\lambda \mathbf{x}+(1-\lambda) \mathbf{y}) \leq \lambda f(\mathbf{x})+(1-\lambda) f(\mathbf{y})
f(λx+(1−λ)y)≤λf(x)+(1−λ)f(y)
其中定义
a
+
∞
=
∞
∀
a
∈
R
,
a
⋅
∞
=
∞
∀
a
∈
R
+
+
0
⋅
∞
=
0
\begin{aligned} a+\infty &=\infty \quad\forall a \in \mathbb{R}, \\ a \cdot \infty &=\infty \quad\forall a \in \mathbb{R}_{++} \\ 0 \cdot \infty &=0 \end{aligned}
a+∞a⋅∞0⋅∞=∞∀a∈R,=∞∀a∈R++=0
上方图
定义
设
f
:
R
n
→
R
∪
{
∞
}
f:\mathbb{R}^{n}\to \mathbb{R}\cup \left\{\infty\right\}
f:Rn→R∪{∞}
那么上方图集合(epigraph set)
epi
(
f
)
⊆
R
n
+
1
\operatorname{epi}(f)\subseteq \mathbb{R}^{n+1}
epi(f)⊆Rn+1定义为
epi
(
f
)
=
{
(
x
t
)
:
f
(
x
)
≤
t
}
\operatorname{epi}(f)=\left\{\left(\begin{array}{cccc} \mathbf{x} \\ t \end{array}\right): f(\mathbf{x}) \leq t\right\}
epi(f)={(xt):f(x)≤t}
凸性
一个扩充实函数是凸函数当且仅当 epi ( f ) \operatorname{epi}(f) epi(f)是凸集
证明:
必要性:
f
f
f是凸函数
设
(
x
1
t
1
)
,
(
x
2
t
2
)
∈
epi
(
f
)
,
λ
∈
[
0
,
1
]
\left(\begin{array}{cccc} \mathbf{x}_1 \\ t_1 \end{array}\right),\left(\begin{array}{cccc} \mathbf{x}_2 \\ t_2 \end{array}\right)\in \operatorname{epi}(f),\lambda\in\left[0,1\right]
(x1t1),(x2t2)∈epi(f),λ∈[0,1]
f
(
λ
x
1
+
(
1
−
λ
)
x
2
)
≤
λ
f
(
x
1
)
+
(
1
−
λ
)
f
(
x
2
)
≤
λ
t
+
(
1
−
λ
)
t
=
t
\begin{aligned} f(\lambda \mathbf{x}_1+(1-\lambda)\mathbf{x}_2) &\le \lambda f(\mathbf{x}_1)+(1-\lambda)f(\mathbf{x}_2)\\ &\le \lambda t+(1-\lambda)t\\ &=t \end{aligned}
f(λx1+(1−λ)x2)≤λf(x1)+(1−λ)f(x2)≤λt+(1−λ)t=t
充分性:
epi
(
f
)
\operatorname{epi}(f)
epi(f)是凸集
设
(
x
1
f
(
x
1
)
)
,
(
x
2
f
(
x
2
)
)
∈
epi
(
f
)
,
λ
∈
[
0
,
1
]
\left(\begin{array}{cccc} \mathbf{x}_1 \\ f(\mathbf{x}_1) \end{array}\right),\left(\begin{array}{cccc} \mathbf{x}_2 \\ f(\mathbf{x}_2) \end{array}\right)\in \operatorname{epi}(f),\lambda\in\left[0,1\right]
(x1f(x1)),(x2f(x2))∈epi(f),λ∈[0,1]
于是
f
(
λ
x
1
+
(
1
−
λ
)
x
2
)
≤
λ
f
(
x
1
)
+
(
1
−
λ
)
f
(
x
2
)
f(\lambda \mathbf{x}_1+(1-\lambda)\mathbf{x}_2) \le \lambda f(\mathbf{x}_1)+(1-\lambda)f(\mathbf{x}_2)
f(λx1+(1−λ)x2)≤λf(x1)+(1−λ)f(x2)
保凸
设
f
i
:
R
n
→
R
∪
{
∞
}
f_i:\mathbb{R}^{n}\to \mathbb{R}\cup \left\{\infty\right\}
fi:Rn→R∪{∞}对于任意的
i
∈
I
i\in I
i∈I(
I
I
I是一个下标的集合)是扩充实函数
那么
f
(
x
)
=
max
i
∈
I
f
i
(
x
)
f(\mathbf{x})=\max _{i \in I} f_{i}(\mathbf{x})
f(x)=i∈Imaxfi(x)
是一个凸的扩充实函数
证明:
其实我们等价于证明
epi
(
f
)
=
⋂
i
∈
I
epi
(
f
i
)
\operatorname{epi}(f)=\bigcap_{i \in I} \operatorname{epi}\left(f_{i}\right)
epi(f)=⋂i∈Iepi(fi)
因为
f
i
f_i
fi是凸函数,所以
epi
(
f
i
)
\operatorname{epi}(f_i)
epi(fi)是凸集
凸集的交集也是凸集,所以
epi
(
f
)
\operatorname{epi}(f)
epi(f)是凸集
所以
f
f
f是凸函数
凸函数的连续性和微分性
凸函数局部Lipschitz连续
设
f
:
C
→
R
f:C\to \mathbb{R}
f:C→R是定义在
C
⊆
R
n
C\subseteq \mathbb{R}^n
C⊆Rn的函数
设
x
0
∈
int
(
C
)
\mathbf{x}_{0} \in \operatorname{int}(C)
x0∈int(C),则存在
ϵ
>
0
,
L
>
0
\epsilon>0,L>0
ϵ>0,L>0
使得
B
[
x
0
,
ϵ
]
⊆
C
B\left[\mathbf{x}_0,\epsilon\right]\subseteq C
B[x0,ϵ]⊆C,
∣
f
(
x
)
−
f
(
x
0
)
∣
≤
L
∥
x
−
x
0
∥
,
x
∈
B
[
x
0
,
ϵ
]
\left|f(\mathbf{x})-f\left(\mathbf{x}_{0}\right)\right| \leq L\left\|\mathbf{x}-\mathbf{x}_{0}\right\|,\quad \mathbf{x}\in B\left[\mathbf{x}_0,\epsilon\right]
∣f(x)−f(x0)∣≤L∥x−x0∥,x∈B[x0,ϵ]
证明:
因为
x
0
∈
int
(
C
)
\mathbf{x}_0\in \operatorname{int}(C)
x0∈int(C)
所以存在
ϵ
>
0
\epsilon>0
ϵ>0使得
B
∞
[
x
0
,
ϵ
]
≡
{
x
∈
R
n
:
∥
x
−
x
0
∥
∞
≤
ε
}
⊆
C
B_{\infty}\left[\mathbf{x}_{0}, \epsilon\right] \equiv\left\{\mathbf{x} \in \mathbb{R}^{n}:\left\|\mathbf{x}-\mathbf{x}_{0}\right\|_{\infty} \leq \varepsilon\right\} \subseteq C
B∞[x0,ϵ]≡{x∈Rn:∥x−x0∥∞≤ε}⊆C
设
v
1
,
v
2
,
⋯
,
v
2
n
\mathbf{v}_{1}, \mathbf{v}_{2}, \cdots, \mathbf{v}_{2^{n}}
v1,v2,⋯,v2n是
B
∞
[
x
0
,
ϵ
]
B_{\infty}\left[\mathbf{x}_{0}, \epsilon\right]
B∞[x0,ϵ]的
2
n
2^n
2n个极点
设
v
i
=
x
0
+
ε
w
i
\mathbf{v}_{i}=\mathbf{x}_{0}+\varepsilon \mathbf{w}_{i}
vi=x0+εwi
其中
w
1
,
⋯
,
w
2
n
∈
{
−
1
,
1
}
n
\mathbf{w}_{1}, \cdots, \mathbf{w}_{2^{n}}\in\left\{-1,1\right\}^{n}
w1,⋯,w2n∈{−1,1}n
所以根据Krein-Milman定理,
∀
x
∈
B
∞
[
x
0
,
ϵ
]
,
∃
λ
∈
Δ
2
n
\forall \mathbf{x} \in B_{\infty}\left[\mathbf{x}_{0}, \epsilon\right],\exists\lambda\in\Delta_{2^n}
∀x∈B∞[x0,ϵ],∃λ∈Δ2n,使得
x
=
∑
i
=
1
2
n
λ
i
v
i
\mathbf{x}=\sum_{i=1}^{2^{n}} \lambda_{i} \mathbf{v}_{i}
x=∑i=12nλivi
根据Jensen不等式
f
(
x
)
=
f
(
∑
i
=
1
2
n
λ
i
v
i
)
≤
∑
i
=
1
2
n
λ
i
f
(
v
i
)
≤
M
f(\mathbf{x})=f\left(\sum_{i=1}^{2^{n}} \lambda_{i} \mathbf{v}_{i}\right) \leq \sum_{i=1}^{2^{n}} \lambda_{i} f\left(\mathbf{v}_{i}\right) \leq M
f(x)=f(i=1∑2nλivi)≤i=1∑2nλif(vi)≤M
其中
M
=
max
i
=
1
,
2
,
…
,
2
n
f
(
v
i
)
M=\max \limits_{i=1,2, \ldots, 2^{n}} f\left(\mathbf{v}_{i}\right)
M=i=1,2,…,2nmaxf(vi)
因为
∥
x
∥
∞
≤
∥
x
∥
2
\|\mathbf{x}\|_{\infty}\le \|\mathbf{x}\|_2
∥x∥∞≤∥x∥2,所以
B
2
[
x
0
,
ϵ
]
=
B
[
x
0
,
ϵ
]
=
{
x
∈
R
n
:
∥
x
−
x
0
∥
2
≤
ϵ
}
⊆
B
∞
[
x
0
,
ϵ
]
B_{2}\left[\mathbf{x}_{0}, \epsilon\right]=B\left[\mathbf{x}_{0}, \epsilon\right]=\left\{\mathbf{x} \in \mathbb{R}^{n}:\left\|\mathbf{x}-\mathbf{x}_{0}\right\|_{2} \leq \epsilon\right\} \subseteq B_{\infty}\left[\mathbf{x}_{0}, \epsilon\right]
B2[x0,ϵ]=B[x0,ϵ]={x∈Rn:∥x−x0∥2≤ϵ}⊆B∞[x0,ϵ]
所以
∀
x
∈
B
[
x
0
,
ϵ
]
,
f
(
x
)
≤
M
\forall \mathbf{x}\in B\left[\mathbf{x}_{0}, \epsilon\right],f(\mathbf{x})\le M
∀x∈B[x0,ϵ],f(x)≤M
如果
x
=
x
0
\mathbf{x}=\mathbf{x}_0
x=x0,则显然成立
不妨设
x
0
≠
x
∈
B
[
x
0
,
ϵ
]
\mathbf{x}_0\neq \mathbf{x}\in B\left[\mathbf{x}_{0}, \epsilon\right]
x0=x∈B[x0,ϵ]
令
z
=
x
0
+
1
α
(
x
−
x
0
)
\mathbf{z}=\mathbf{x}_{0}+\frac{1}{\alpha}\left(\mathbf{x}-\mathbf{x}_{0}\right)
z=x0+α1(x−x0)
根据Jensen不等式
f
(
x
)
≤
α
f
(
z
)
+
(
1
−
α
)
f
(
x
0
)
≤
f
(
x
0
)
+
α
(
M
−
f
(
x
0
)
)
=
f
(
x
0
)
+
M
−
f
(
x
0
)
ϵ
∥
x
−
x
0
∥
\begin{aligned} f(\mathbf{x}) & \leq \alpha f(\mathbf{z})+(1-\alpha) f\left(\mathbf{x}_{0}\right) \\ & \leq f\left(\mathbf{x}_{0}\right)+\alpha\left(M-f\left(\mathbf{x}_{0}\right)\right) \\ &=f\left(\mathbf{x}_{0}\right)+\frac{M-f\left(\mathbf{x}_{0}\right)}{\epsilon}\left\|\mathbf{x}-\mathbf{x}_{0}\right\| \end{aligned}
f(x)≤αf(z)+(1−α)f(x0)≤f(x0)+α(M−f(x0))=f(x0)+ϵM−f(x0)∥x−x0∥
令
L
=
M
−
f
(
x
0
)
ϵ
L=\frac{M-f\left(\mathbf{x}_{0}\right)}{\epsilon}
L=ϵM−f(x0)
则
f
(
x
)
−
f
(
x
0
)
≤
L
∥
x
−
x
0
∥
f(\mathbf{x})-f\left(\mathbf{x}_{0}\right) \leq L\left\|\mathbf{x}-\mathbf{x}_{0}\right\|
f(x)−f(x0)≤L∥x−x0∥
这就证明一半了
令
u
=
x
0
+
1
α
(
x
0
−
x
)
\mathbf{u}=\mathbf{x}_{0}+\frac{1}{\alpha}\left(\mathbf{x}_{0}-\mathbf{x}\right)
u=x0+α1(x0−x)
∥
u
−
x
0
∥
=
ϵ
⇒
u
∈
B
[
x
0
,
ϵ
]
⇒
f
(
u
)
≤
M
\left\|\mathbf{u}-\mathbf{x}_{0}\right\|=\epsilon\Rightarrow \mathbf{u}\in B\left[\mathbf{x}_{0}, \epsilon\right]\Rightarrow f(\mathbf{u})\le M
∥u−x0∥=ϵ⇒u∈B[x0,ϵ]⇒f(u)≤M
因为
x
0
=
1
1
+
α
(
x
0
+
α
(
x
0
−
u
)
)
+
α
1
+
α
u
\mathbf{x}_{0}=\frac{1}{1+\alpha}\left(\mathbf{x}_{0}+\alpha\left(\mathbf{x}_{0}-\mathbf{u}\right)\right)+\frac{\alpha}{1+\alpha} \mathbf{u}
x0=1+α1(x0+α(x0−u))+1+ααu
根据Jensen不等式
f
(
x
0
)
≤
1
1
+
α
f
(
x
0
+
α
(
x
0
−
u
)
)
+
α
1
+
α
f
(
u
)
f\left(\mathbf{x}_{0}\right) \leq \frac{1}{1+\alpha} f\left(\mathbf{x}_{0}+\alpha\left(\mathbf{x}_{0}-\mathbf{u}\right)\right)+\frac{\alpha}{1+\alpha} f(\mathbf{u})
f(x0)≤1+α1f(x0+α(x0−u))+1+ααf(u)
于是
f
(
x
)
=
f
(
x
0
+
α
(
x
0
−
u
)
)
≥
f
(
x
0
)
+
α
(
f
(
x
0
)
−
f
(
u
)
)
f(\mathbf{x})=f\left(\mathbf{x}_{0}+\alpha\left(\mathbf{x}_{0}-\mathbf{u}\right)\right) \geq f\left(\mathbf{x}_{0}\right)+\alpha\left(f\left(\mathbf{x}_{0}\right)-f(\mathbf{u})\right)
f(x)=f(x0+α(x0−u))≥f(x0)+α(f(x0)−f(u))
所以
f
(
x
)
≥
f
(
x
0
)
+
α
(
f
(
x
0
)
−
f
(
u
)
)
≥
f
(
x
0
)
−
α
(
M
−
f
(
x
0
)
)
=
f
(
x
0
)
−
M
−
f
(
x
0
)
ϵ
∥
x
−
x
0
∥
=
f
(
x
0
)
−
L
∥
x
−
x
0
∥
,
\begin{aligned} f(\mathbf{x}) & \geq f\left(\mathbf{x}_{0}\right)+\alpha\left(f\left(\mathbf{x}_{0}\right)-f(\mathbf{u})\right) \\ & \geq f\left(\mathbf{x}_{0}\right)-\alpha\left(M-f\left(\mathbf{x}_{0}\right)\right) \\ &=f\left(\mathbf{x}_{0}\right)-\frac{M-f\left(\mathbf{x}_{0}\right)}{\epsilon}\left\|\mathbf{x}-\mathbf{x}_{0}\right\| \\ &=f\left(\mathbf{x}_{0}\right)-L\left\|\mathbf{x}-\mathbf{x}_{0}\right\|, \end{aligned}
f(x)≥f(x0)+α(f(x0)−f(u))≥f(x0)−α(M−f(x0))=f(x0)−ϵM−f(x0)∥x−x0∥=f(x0)−L∥x−x0∥,
方向导数
设
f
:
C
→
R
f:C\to \mathbb{R}
f:C→R是一个定义在凸集
C
⊆
R
n
C\subseteq \mathbb{R}^n
C⊆Rn的凸函数
设
x
∈
int
(
C
)
\mathbf{x}\in \operatorname{int}(C)
x∈int(C)
对于任意的
d
≠
0
\mathbf{d}\neq 0
d=0,方向导数
f
′
(
x
;
d
)
f'(\mathbf{x};\mathbf{d})
f′(x;d)存在
证明:
设
x
∈
int
(
C
)
,
d
≠
0
\mathbf{x}\in \operatorname{int}(C),\mathbf{d}\neq 0
x∈int(C),d=0
我们的目标是证明
lim
t
→
0
+
g
(
t
)
−
g
(
0
)
t
\lim _{t \rightarrow 0^{+}} \frac{g(t)-g(0)}{t}
t→0+limtg(t)−g(0)
的存在其中
g
(
t
)
=
f
(
x
+
t
d
)
g(t)=f(\mathbf{x}+t \mathbf{d})
g(t)=f(x+td)
令
h
(
t
)
≡
g
(
t
)
−
g
(
0
)
t
h(t) \equiv \frac{g(t)-g(0)}{t}
h(t)≡tg(t)−g(0)
所以等价于证明
lim
t
→
0
+
h
(
t
)
\lim\limits_{t\to 0^{+}}h(t)
t→0+limh(t)
的存在
取
ϵ
>
0
\epsilon>0
ϵ>0使得,
∀
t
∈
[
0
,
ϵ
]
,
x
+
t
d
,
x
−
t
d
∈
C
\forall t\in\left[0,\epsilon\right],\mathbf{x}+t \mathbf{d}, \mathbf{x}-t \mathbf{d} \in C
∀t∈[0,ϵ],x+td,x−td∈C
令
0
<
t
1
<
t
2
≤
ϵ
0<t_1<t_2\le \epsilon
0<t1<t2≤ϵ
x
+
t
1
d
=
(
1
−
t
1
t
2
)
x
+
t
1
t
2
(
x
+
t
2
d
)
\mathbf{x}+t_{1} \mathbf{d}=\left(1-\frac{t_{1}}{t_{2}}\right) \mathbf{x}+\frac{t_{1}}{t_{2}}\left(\mathbf{x}+t_{2} \mathbf{d}\right)
x+t1d=(1−t2t1)x+t2t1(x+t2d)
根据
f
f
f的凸性
f
(
x
+
t
1
d
)
≤
(
1
−
t
1
t
2
)
f
(
x
)
+
t
1
t
2
f
(
x
+
t
2
d
)
f
(
x
+
t
1
d
)
−
f
(
x
)
t
1
≤
f
(
x
+
t
2
d
)
−
f
(
x
)
t
2
h
(
t
1
)
≤
h
(
t
2
)
\begin{aligned} f\left(\mathbf{x}+t_{1} \mathbf{d}\right) &\leq\left(1-\frac{t_{1}}{t_{2}}\right) f(\mathbf{x})+\frac{t_{1}}{t_{2}} f\left(\mathbf{x}+t_{2} \mathbf{d}\right)\\ \frac{f\left(\mathbf{x}+t_{1} \mathbf{d}\right)-f(\mathbf{x})}{t_{1}} &\leq \frac{f\left(\mathbf{x}+t_{2} \mathbf{d}\right)-f(\mathbf{x})}{t_{2}}\\ h\left(t_{1}\right) &\leq h\left(t_{2}\right) \end{aligned}
f(x+t1d)t1f(x+t1d)−f(x)h(t1)≤(1−t2t1)f(x)+t2t1f(x+t2d)≤t2f(x+t2d)−f(x)≤h(t2)
在趋向0的过程中
h
h
h单调递减
现在需要证明有下界,就可以根据单调递减有下界,必收敛
取
0
<
t
≤
ϵ
0<t\le \epsilon
0<t≤ϵ
x
=
ε
ε
+
t
(
x
+
t
d
)
+
t
ε
+
t
(
x
−
ε
d
)
\mathbf{x}=\frac{\varepsilon}{\varepsilon+t}(\mathbf{x}+t \mathbf{d})+\frac{t}{\varepsilon+t}(\mathbf{x}-\varepsilon \mathbf{d})
x=ε+tε(x+td)+ε+tt(x−εd)
根据
f
f
f的凸性
f
(
x
)
≤
ε
ε
+
t
f
(
x
+
t
d
)
+
t
ε
+
t
f
(
x
−
ε
d
)
f(\mathbf{x}) \leq \frac{\varepsilon}{\varepsilon+t} f(\mathbf{x}+t \mathbf{d})+\frac{t}{\varepsilon+t} f(\mathbf{x}-\varepsilon \mathbf{d})
f(x)≤ε+tεf(x+td)+ε+ttf(x−εd)
所以
h
(
t
)
=
f
(
x
+
t
d
)
−
f
(
x
)
t
≥
f
(
x
)
−
f
(
x
−
ε
d
)
ε
h(t)=\frac{f(\mathbf{x}+t \mathbf{d})-f(\mathbf{x})}{t} \geq \frac{f(\mathbf{x})-f(\mathbf{x}-\varepsilon \mathbf{d})}{\varepsilon}
h(t)=tf(x+td)−f(x)≥εf(x)−f(x−εd)
所以收敛
于是方向导数存在
凸函数最大值
定理1
设
f
:
C
→
R
f:C\to \mathbb{R}
f:C→R定义在
C
C
C上的凸函数,
f
f
f不是常值函数
那么
f
f
f在
int
(
C
)
\operatorname{int}(C)
int(C)不会取到最大值
证明:
假设
x
∗
∈
int
(
C
)
\mathbf{x}^{*} \in \operatorname{int}(C)
x∗∈int(C)是
f
f
f在
C
C
C上的全局最大值
因为不是常值函数,所以
∃
y
∈
C
,
f
(
y
)
<
f
(
x
∗
)
\exists \mathbf{y}\in C,f(\mathbf{y})<f(\mathbf{x}^{*})
∃y∈C,f(y)<f(x∗)
因为
x
∗
∈
int
(
C
)
\mathbf{x}^{*} \in \operatorname{int}(C)
x∗∈int(C),
所以
∃
ϵ
>
0
,
z
=
x
∗
+
ε
(
x
∗
−
y
)
∈
C
\exists \epsilon>0,\mathbf{z}=\mathbf{x}^{*}+\varepsilon\left(\mathbf{x}^{*}-\mathbf{y}\right) \in C
∃ϵ>0,z=x∗+ε(x∗−y)∈C
因为
x
∗
=
ε
ε
+
1
y
+
1
ε
+
1
z
\mathbf{x}^{*}=\frac{\varepsilon}{\varepsilon+1} \mathbf{y}+\frac{1}{\varepsilon+1} \mathbf{z}
x∗=ε+1εy+ε+11z
所以
f
(
x
∗
)
≤
ε
ε
+
1
f
(
y
)
+
1
ε
+
1
f
(
z
)
f\left(\mathbf{x}^{*}\right) \leq \frac{\varepsilon}{\varepsilon+1} f(\mathbf{y})+\frac{1}{\varepsilon+1} f(\mathbf{z})
f(x∗)≤ε+1εf(y)+ε+11f(z)
进而
f
(
z
)
≥
ϵ
(
f
(
x
∗
)
−
f
(
y
)
)
+
f
(
x
∗
)
>
f
(
x
∗
)
f(\mathbf{z}) \geq \epsilon\left(f\left(\mathbf{x}^{*}\right)-f(\mathbf{y})\right)+f\left(\mathbf{x}^{*}\right)>f\left(\mathbf{x}^{*}\right)
f(z)≥ϵ(f(x∗)−f(y))+f(x∗)>f(x∗)
于是矛盾了,
所以全局最大值不会在内部取到
定理2
设
f
:
C
→
R
f:C\to \mathbb{R}
f:C→R是一个定义在凸的紧集
C
⊆
R
n
C\subseteq \mathbb{R}^{n}
C⊆Rn的凸函数,
则
C
C
C上至少存在一个极点,这个极点是
f
f
f在
C
C
C上的最大值
证明:
根据Weierstrass定理,紧集上的连续函数一定存在最大最小值
设
x
∗
\mathbf{x}^{*}
x∗是
f
f
f在
C
C
C的最大值
如果
x
∗
\mathbf{x}^{*}
x∗是
C
C
C上的极点,那结论成立
假设不是,根据Krein-Milman定理
存在
x
1
,
x
2
,
⋯
,
x
k
∈
ext
(
C
)
,
λ
∈
Δ
k
\mathbf{x}_{1}, \mathbf{x}_{2}, \cdots, \mathbf{x}_{k} \in \operatorname{ext}(C),\lambda \in \Delta_{k}
x1,x2,⋯,xk∈ext(C),λ∈Δk,使得
x
∗
=
∑
i
=
1
k
λ
i
x
i
\mathbf{x}^{*}=\sum_{i=1}^{k} \lambda_{i} \mathbf{x}_{i}
x∗=i=1∑kλixi
其中
∀
i
=
1
,
2
,
⋯
,
k
,
λ
i
>
0
\forall i=1,2,\cdots,k,\lambda_i>0
∀i=1,2,⋯,k,λi>0
因此,根据
f
f
f的凸性
f
(
x
∗
)
≤
∑
i
=
1
k
λ
i
f
(
x
i
)
∑
i
=
1
k
λ
i
(
f
(
x
i
)
−
f
(
x
∗
)
)
≥
0
\begin{aligned} f\left(\mathbf{x}^{*}\right) &\leq \sum_{i=1}^{k} \lambda_{i} f\left(\mathbf{x}_{i}\right)\\ \sum_{i=1}^{k} \lambda_{i}\left(f\left(\mathbf{x}_{i}\right)-f\left(\mathbf{x}^{*}\right)\right) &\geq 0 \end{aligned}
f(x∗)i=1∑kλi(f(xi)−f(x∗))≤i=1∑kλif(xi)≥0
所以
∀
i
=
1
,
2
,
⋯
,
k
,
f
(
x
i
)
≥
f
(
x
∗
)
\forall i=1,2,\cdots,k,f\left(\mathbf{x}_{i}\right)\ge f\left(\mathbf{x}^{*}\right)
∀i=1,2,⋯,k,f(xi)≥f(x∗)
又因为
x
∗
\mathbf{x}^{*}
x∗是最大值点
所以
∀
i
=
1
,
2
,
⋯
,
k
,
f
(
x
i
)
≤
f
(
x
∗
)
\forall i=1,2,\cdots,k,f(\mathbf{x}_i)\le f(\mathbf{x}^{*})
∀i=1,2,⋯,k,f(xi)≤f(x∗)
于是
f
(
x
i
)
=
f
(
x
∗
)
f(\mathbf{x}_i)= f(\mathbf{x}^{*})
f(xi)=f(x∗)
所以最大值点是一个极点