第二章: 扩充实值函数
文章目录
1. 扩充实值函数和闭性
-
扩充实值函数 (extended real-valued function) 是定义在整个 E \mathbb{E} E上, 而取值在扩充实轴 R ∪ { ∞ , − ∞ } \mathbb{R}\cup\{\infty,-\infty\} R∪{∞,−∞}1的函数. 为此, 我们先定义扩充实轴上的运算法则: a + ∞ = ∞ + a = ∞ , ∀ a ∈ R , a − ∞ = − ∞ + a = − ∞ , ∀ a ∈ R , a ⋅ ∞ = ∞ ⋅ a = ∞ , ∀ a ∈ R + , a ⋅ ( − ∞ ) = ( − ∞ ) ⋅ a = − ∞ , ∀ a ∈ R + , a ⋅ ∞ = ∞ ⋅ a = − ∞ , ∀ a ∈ R − , a ⋅ ( − ∞ ) = ( − ∞ ) ⋅ a = ∞ , ∀ a ∈ R − , 0 ⋅ ∞ = ∞ ⋅ 0 = 0 ⋅ ( − ∞ ) = ( − ∞ ) ⋅ 0 = 0. \begin{aligned}a+\infty=\infty+a&=\infty,\quad\forall a\in\mathbb{R},\\ a-\infty=-\infty+a&=-\infty,\quad\forall a\in\mathbb{R},\\ a\cdot\infty=\infty\cdot a&=\infty,\quad\forall a\in\mathbb{R}_+,\\ a\cdot(-\infty)=(-\infty)\cdot a&=-\infty,\quad\forall a\in\mathbb{R}_+,\\ a\cdot\infty=\infty\cdot a&=-\infty,\quad\forall a\in\mathbb{R}_-,\\ a\cdot(-\infty)=(-\infty)\cdot a&=\infty,\quad\forall a\in\mathbb{R}_-,\\ 0\cdot\infty=\infty\cdot0=0\cdot(-\infty)=(-\infty)\cdot0&=0.\end{aligned} a+∞=∞+aa−∞=−∞+aa⋅∞=∞⋅aa⋅(−∞)=(−∞)⋅aa⋅∞=∞⋅aa⋅(−∞)=(−∞)⋅a0⋅∞=∞⋅0=0⋅(−∞)=(−∞)⋅0=∞,∀a∈R,=−∞,∀a∈R,=∞,∀a∈R+,=−∞,∀a∈R+,=−∞,∀a∈R−,=∞,∀a∈R−,=0.如果我们用极限来解释以上运算法则, 我们会发现其中唯一“不自然”的是最后一条. 在数学分析中, 我们称“ 0 ⋅ ∞ 0\cdot\infty 0⋅∞”为未定式. 但在讨论扩充实值函数时, 这样的规定是“适当的 (correct) ”.
我们也规定扩充实轴上实数和无穷大之间的序关系: ∞ > a , ∀ a ∈ R ∪ { − ∞ } , − ∞ < a , ∀ a ∈ R ∪ { ∞ } . \begin{aligned}\infty&>a,\quad\forall a\in\mathbb{R}\cup\{-\infty\},\\-\infty&<a,\quad\forall a\in\mathbb{R}\cup\{\infty\}.\end{aligned} ∞−∞>a,∀a∈R∪{−∞},<a,∀a∈R∪{∞}.对于一个扩充实值函数 f : E → R ∪ { ∞ } f:\mathbb{E}\to\mathbb{R}\cup\{\infty\} f:E→R∪{∞}, 我们定义其有效域 (effective domain) d o m ( f ) \mathrm{dom}(f) dom(f)为 d o m ( f ) = { x ∈ E : f ( x ) < ∞ } . \mathrm{dom}(f)=\{\mathbf{x}\in\mathbb{E}:f(\mathbf{x})<\infty\}. dom(f)={x∈E:f(x)<∞}.于此, 我们称满足 { x ∈ E : f ( x ) = − ∞ } = ∅ \{x\in\mathbb{E}:f(\mathbf{x})=-\infty\}=\emptyset {x∈E:f(x)=−∞}=∅且 d o m ( f ) ≠ ∅ \mathrm{dom}(f)\not=\emptyset dom(f)=∅的 f f f是正常函数 (proper function).
最简单的扩充实值函数是集合的指示函数 (indicator function).
例1 (指示函数) 对 ∀ C ⊂ E \forall C\subset\mathbb{E} ∀C⊂E, C C C的指示函数定义为如下的扩充实值函数: δ C ( x ) = { 0 , x ∈ C , ∞ , x ∉ C . \delta_{C}(\mathbf{x})=\left\{\begin{array}{ll}0, & \mathbf{x}\in C,\\\infty, & \mathbf{x}\notin C.\end{array}\right. δC(x)={0,∞,x∈C,x∈/C.显然有 d o m ( δ C ) = C . \mathrm{dom}(\delta_{C})=C. dom(δC)=C.
扩充实值函数 f f f的上镜图 (epigraph) e p i ( f ) \mathrm{epi}(f) epi(f)定义为 e p i ( f ) = { ( x , y ) : f ( x ) ≤ y , x ∈ E , y ∈ R } ( ⊂ E × R ) . \mathrm{epi}(f)=\{(\mathbf{x},y):f(\mathbf{x})\le y,\,\mathbf{x}\in\mathbb{E},\,y\in\mathbb{R}\}(\subset\mathbb{E}\times\mathbb{R}). epi(f)={(x,y):f(x)≤y,x∈E,y∈R}(⊂E×R).显然我们有 P E ( e p i ( f ) ) = d o m ( f ) , P_{\mathbb{E}}(\mathrm{epi}(f))=\mathrm{dom}(f), PE(epi(f))=dom(f),这里 P P P为投影映射. -
闭函数 (closed function).
定义1 (闭函数) 我们称扩充实值函数 f f f是闭函数, 若它的上镜图 e p i ( f ) \mathrm{epi}(f) epi(f)是闭集.
由定义直接可得, 集合 C C C的指示函数是闭函数当且仅当 C C C是闭集. 这是因为 e p i ( δ C ) = C × R + \mathrm{epi}(\delta_C)=C\times\mathbb{R}_+ epi(δC)=C×R+. 但这点对一般的闭函数不一定成立. 特别地, 存在闭函数, 使得其有效域不是个闭集.
例2 考虑扩充实值函数 f f f: f ( x ) = { 1 x , x > 0 , ∞ , 其 他 . f(x)=\left\{\begin{array}{ll}\frac{1}{x}, & x>0,\\\infty,&其他.\end{array}\right. f(x)={x1,∞,x>0,其他.这样的 f f f, 其有效域为开区间 ( 0 , ∞ ) (0,\infty) (0,∞), 而上镜图 e p i ( f ) = { ( x , y ) : x y ≥ 1 , x > 0 } \mathrm{epi}(f)=\{(x,y):xy\ge1,x>0\} epi(f)={(x,y):xy≥1,x>0}则是个闭集. f f f的图像如下.
我们下面要介绍的下半连续性 (lower semicontinuity) 是与函数闭性等价的性质.
定义2 (下半连续性) 我们称扩充实值函数 f f f在 x ∈ E \mathbf{x}\in\mathbb{E} x∈E处下半连续, 若 f ( x ) ≤ lim inf n → ∞ f ( x n ) f(\mathbf{x})\le\liminf_{n\to\infty}f(\mathbf{x}_n) f(x)≤n→∞liminff(xn)对 ∀ { x n } n ≥ 1 ⊂ E : x n → x \forall \{\mathbf{x}_n\}_{n\ge1}\subset\mathbb{E}:\mathbf{x}_n\to\mathbf{x} ∀{xn}n≥1⊂E:xn→x都是成立; 称 f f f是 E \mathbb{E} E上的下半连续函数, 若它在 E \mathbb{E} E上每个点处均下半连续.
为证明下半连续性和闭性的等价性, 我们引入水平集 (level set) 的概念. 对 ∀ α ∈ R \forall\alpha\in\mathbb{R} ∀α∈R, 扩充实值函数 f f f的 α \alpha α-水平集定义为 L e v ( f , α ) = { x ∈ E : f ( x ) ≤ α } . \mathrm{Lev}(f,\alpha)=\{\mathbf{x}\in\mathbb{E}:f(\mathbf{x})\le\alpha\}. Lev(f,α)={x∈E:f(x)≤α}.下面的定理1表明, 闭性、下半连续性和任意水平集是闭集是等价的.
定理1 (闭性、下半连续性和水平集是闭集的等价性) 令 f : E → [ − ∞ , ∞ ] f:\mathbb{E}\to[-\infty,\infty] f:E→[−∞,∞]. 则下面三件事是等价的:
(i) f f f是下半连续函数;
(ii) f f f是闭函数;
(iii) 对 ∀ α ∈ R \forall\alpha\in\mathbb{R} ∀α∈R, 水平集 L e v ( f , α ) \mathrm{Lev}(f,\alpha) Lev(f,α)是闭集.
证明: (i) ⇒ \Rightarrow ⇒(ii) 设 f f f下半连续. 我们证明 f f f的上镜图 e p i ( f ) \mathrm{epi}(f) epi(f)是闭集. 为此, 任取 { ( x n , y n ) } n ≥ 1 ⊂ e p i ( f ) : ( x n , y n ) → ( x ∗ , y ∗ ) \{(\mathbf{x}_n,y_n)\}_{n\ge1}\subset\mathrm{epi}(f):(\mathbf{x}_n,y_n)\to(\mathbf{x}^*,y^*) {(xn,yn)}n≥1⊂epi(f):(xn,yn)→(x∗,y∗). 于是对 ∀ n ≥ 1 \forall n\ge1 ∀n≥1, f ( x n ) ≤ y n f(\mathbf{x}_n)\le y_n f(xn)≤yn. 因此, 由 f f f在 x ∗ \mathbf{x}^* x∗处的下半连续性, 我们有 f ( x ∗ ) ≤ lim inf n → ∞ f ( x n ) ≤ lim inf n → ∞ y n = y ∗ . f(\mathbf{x}^*)\le\liminf_{n\to\infty}f(\mathbf{x}_n)\le\liminf_{n\to\infty}y_n=y^*. f(x∗)≤n→∞liminff(xn)≤n→∞liminfyn=y∗.这就表明 ( x ∗ , y ∗ ) ∈ e p i ( f ) (\mathbf{x}^*,y^*)\in\mathrm{epi}(f) (x∗,y∗)∈epi(f), 因此 f f f是闭函数.
(ii) ⇒ \Rightarrow ⇒(iii) 设 f f f是闭函数. 对 ∀ α ∈ R \forall\alpha\in\mathbb{R} ∀α∈R, 我们要证 L e v ( f , α ) \mathrm{Lev}(f,\alpha) Lev(f,α)是闭集. 若 L e v ( f , α ) = ∅ \mathrm{Lev}(f,\alpha)=\emptyset Lev(f,α)=∅, 则得证. 不然, 取序列 { x n } n ≥ 1 ⊂ L e v ( f , α ) : x n → x ˉ \{\mathbf{x}_n\}_{n\ge1}\subset\mathrm{Lev}(f,\alpha):\mathbf{x}_n\to\bar\mathbf{x} {xn}n≥1⊂Lev(f,α):xn→xˉ. 显然对 ∀ n \forall n ∀n, ( x n , α ) ∈ e p i ( f ) (\mathbf{x}_n,\alpha)\in\mathrm{epi}(f) (xn,α)∈epi(f)且 ( x n , α ) → ( x ˉ , α ) (\mathbf{x}_n,\alpha)\to(\bar\mathbf{x},\alpha) (xn,α)→(xˉ,α). 由上镜图的闭性, 我们有 ( x ˉ , α ) ∈ e p i ( f ) ⇒ x ˉ ∈ L e v ( f , α ) (\bar\mathbf{x},\alpha)\in\mathrm{epi}(f)\Rightarrow\bar\mathbf{x}\in\mathrm{Lev}(f,\alpha) (xˉ,α)∈epi(f)⇒xˉ∈Lev(f,α).
(iii) ⇒ \Rightarrow ⇒(i) 设 f f f的所有水平集是闭集. 要证 f f f下半连续. 反证, 若不然, f f f不是下半连续的, 则 ∃ x ∗ ∈ E , { x n } n ≥ 1 ⊂ E : x n → x ∗ , lim inf n → ∞ f ( x n ) < f ( x ∗ ) \exists\mathbf{x}^*\in\mathbb{E},\{\mathbf{x}_n\}_{n\ge1}\subset\mathbb{E}:\mathbf{x}_n\to\mathbf{x}^*,\liminf_{n\to\infty}f(\mathbf{x}_n)<f(\mathbf{x}^*) ∃x∗∈E,{xn}n≥1⊂E:xn→x∗,n→∞liminff(xn)<f(x∗). 取 α : lim inf n → ∞ f ( x ) < α < f ( x ∗ ) \alpha:\liminf_{n\to\infty}f(\mathbf{x})<\alpha<f(\mathbf{x}^*) α:n→∞liminff(x)<α<f(x∗). 则存在子列 { x n k } k ≥ 1 : f ( x n k ) ≤ α , ∀ k ≥ 1 \{\mathbf{x}_{n_k}\}_{k\ge1}:f(\mathbf{x}_{n_k})\le\alpha,\forall k\ge1 {xnk}k≥1:f(xnk)≤α,∀k≥1. 由水平集 L e v ( f , α ) \mathrm{Lev}(f,\alpha) Lev(f,α)的闭性以及 x n k → x ∗ \mathbf{x}_{n_k}\to\mathbf{x}^* xnk→x∗, 我们知道 f ( x ∗ ) ≤ α f(\mathbf{x}^*)\le\alpha f(x∗)≤α. 这与 α < f ( x ∗ ) \alpha<f(\mathbf{x}^*) α<f(x∗)矛盾! 于是 f f f下半连续. 证毕.
下面我们介绍保函数闭性的运算, 包括自变量的仿射变换、非负数乘组合以及多个函数的极大化.
定理2 (保闭性运算)
(i) 令 A : E → V \mathcal{A}:\mathbb{E}\to\mathbb{V} A:E→V为一线性映射, b ∈ E \mathbf{b}\in\mathbb{E} b∈E, f : V → [ − ∞ , ∞ ] f:\mathbb{V}\to[-\infty,\infty] f:V→[−∞,∞]为扩充实值闭函数. 则函数 g g g: g ( x ) = f ( A ( x ) + b ) g(\mathbf{x})=f(\mathcal{A}(\mathbf{x})+\mathbf{b}) g(x)=f(A(x)+b)是闭函数;
(ii) 令 f 1 , f 2 , … , f m : E → ( − ∞ , ∞ ] f_1,f_2,\ldots,f_m:\mathbb{E}\to(-\infty,\infty] f1,f2,…,fm:E→(−∞,∞]为扩充实值闭函数, α 1 , α 2 , … , α m ∈ R + \alpha_1,\alpha_2,\ldots,\alpha_m\in\mathbb{R}_+ α1,α2,…,αm∈R+. 则函数 f = ∑ i = 1 m α i f i f=\sum_{i=1}^m\alpha_if_i f=i=1∑mαifi是闭函数;
(iii) 令 f i : E → ( − ∞ , ∞ ] , i ∈ I f_i:\mathbb{E}\to(-\infty,\infty],i\in I fi:E→(−∞,∞],i∈I为扩充实值闭函数, I I I为给定的指标集 (可以是无限集). 则函数 f ( x ) = max i ∈ I f i ( x ) f(\mathbf{x})=\max_{i\in I}f_i(\mathbf{x}) f(x)=i∈Imaxfi(x)是闭函数.
证明: (i) 为证明 g g g是闭的, 取序列 { ( x n , y n ) } n ≥ 1 ⊂ e p i ( g ) : ( x n , y n ) → ( x ∗ , y ∗ ) , x ∗ ∈ E , y ∗ ∈ R \{(\mathbf{x}_n,y_n)\}_{n\ge1}\subset\mathrm{epi}(g):(\mathbf{x}_n,y_n)\to(\mathbf{x}^*,y^*),\mathbf{x}^*\in\mathbb{E},y^*\in\mathbb{R} {(xn,yn)}n≥1⊂epi(g):(xn,yn)→(x∗,y∗),x∗∈E,y∗∈R. 而 { ( x n , y n ) } n ≥ 1 ⊂ e p i ( g ) \{(\mathbf{x}_n,y_n)\}_{n\ge1}\subset\mathrm{epi}(g) {(xn,yn)}n≥1⊂epi(g)可以等价地写作 f ( A ( x n ) + b ) ≤ y n , ∀ n ≥ 1. f(\mathcal{A}(\mathbf{x}_n)+\mathbf{b})\le y_n,\quad\forall n\ge1. f(A(xn)+b)≤yn,∀n≥1.因此 ( A ( x n ) + b , y n ) ∈ e p i ( f ) (\mathcal{A}(\mathbf{x}_n)+\mathbf{b},y_n)\in\mathrm{epi}(f) (A(xn)+b,yn)∈epi(f). 由于 f f f是闭的且 A ( x n ) + b → A ( x ∗ ) + b , y n → y ∗ \mathcal{A}(\mathbf{x}_n)+\mathbf{b}\to\mathcal{A}(\mathbf{x}^*)+\mathbf{b},y_n\to y^* A(xn)+b→A(x∗)+b,yn→y∗ (线性映射的连续性), 我们知道 ( A ( x ∗ ) + b , y ∗ ) ∈ e p i ( f ) ⇒ f ( A ( x ∗ ) + b ) ≤ y ∗ ⇒ ( x ∗ , y ∗ ) ∈ e p i ( g ) . (\mathcal{A}(\mathbf{x}^*)+\mathbf{b},y^*)\in\mathrm{epi}(f)\Rightarrow f(\mathcal{A}(\mathbf{x}^*)+\mathbf{b})\le y^*\Rightarrow (\mathbf{x}^*,y^*)\in\mathrm{epi}(g). (A(x∗)+b,y∗)∈epi(f)⇒f(A(x∗)+b)≤y∗⇒(x∗,y∗)∈epi(g).这就证明 g g g是闭的.
(ii) 我们证明 f f f是下半连续的, 从而由定理1可得 f f f的闭性. 令 { x n } n ≥ 1 : x n → x ∗ \{\mathbf{x}_n\}_{n\ge1}:\mathbf{x}_n\to\mathbf{x^*} {xn}n≥1:xn→x∗. 由 f i f_i fi的下半连续性, f i ( x ∗ ) ≤ lim inf n → ∞ f i ( x n ) . f_i(\mathbf{x}^*)\le\liminf_{n\to\infty}f_i(\mathbf{x}_n). fi(x∗)≤n→∞liminffi(xn).上式左右同乘 α i \alpha_i αi并对下标 i i i累加可得 ( ∑ i = 1 m α i f i ) ( x ∗ ) ≤ ∑ i = 1 m lim inf n → ∞ α i f i ( x n ) ≤ lim inf n → ∞ ( ∑ i = 1 m α i f i ) ( x n ) . \left(\sum_{i=1}^m\alpha_if_i\right)(\mathbf x^*)\le\sum_{i=1}^m\liminf_{n\to\infty}\alpha_if_i(\mathbf{x}_n)\le\liminf_{n\to\infty}\left(\sum_{i=1}^m\alpha_if_i\right)(\mathbf{x}_n). (i=1∑mαifi)(x∗)≤i=1∑mn→∞liminfαifi(xn)≤n→∞liminf(i=1∑mαifi)(xn).由于上式对任意收敛于 x ∗ \mathbf{x}^* x∗的序列都是成立的, 因此我们就证明了 f f f的下半连续性.
(iii) 由于 f i f_i fi是闭的, 于是 e p i ( f ) \mathrm{epi}(f) epi(f)是闭集. 由于任意多个闭集的交仍是闭集, 于是 e p i ( f ) = ⋂ i ∈ I e p i ( f i ) \mathrm{epi}(f)=\bigcap_{i\in I}\mathrm{epi}(f_i) epi(f)=⋂i∈Iepi(fi)是闭集, 从而 f f f是闭的. 证毕.
2. 闭性与连续性
本节我们将说明函数闭性与连续性之间的关系: 一个扩充实值函数若在其有效域上是连续的且这个有效域是闭的, 则这个函数是闭的; 反之, 一个扩充实值函数是闭的且其有效域是闭的, 并不能推出这个函数在其有效域上连续. 前者可见下面的定理3, 后者我们将以反例说明.
定理3 设
f
:
E
→
(
−
∞
,
∞
]
f:\mathbb{E}\to(-\infty,\infty]
f:E→(−∞,∞]在其有效域上是连续的且
d
o
m
(
f
)
\mathrm{dom}(f)
dom(f)是闭集. 则
f
f
f是闭函数.
证明: 为证明
e
p
i
(
f
)
\mathrm{epi}(f)
epi(f)是闭集, 取序列
{
(
x
n
,
y
n
)
}
n
≥
1
⊂
e
p
i
(
f
)
:
(
x
n
,
y
n
)
→
(
x
∗
,
y
∗
)
,
x
∗
∈
E
,
y
∗
∈
R
\{(\mathbf{x}_n,y_n)\}_{n\ge1}\subset\mathrm{epi}(f):(\mathbf{x}_n,y_n)\to(\mathbf{x}^*,y^*), \mathbf{x}^*\in\mathbb{E},y^*\in\mathbb{R}
{(xn,yn)}n≥1⊂epi(f):(xn,yn)→(x∗,y∗),x∗∈E,y∗∈R. 由于
{
x
n
}
n
≥
1
⊂
d
o
m
(
f
)
\{\mathbf{x}_n\}_{n\ge1}\subset\mathrm{dom}(f)
{xn}n≥1⊂dom(f),
x
n
→
x
∗
\mathbf{x}_n\to\mathbf{x}^*
xn→x∗且
d
o
m
(
f
)
\mathrm{dom}(f)
dom(f)是闭集, 因此
x
∗
∈
d
o
m
(
f
)
\mathbf{x}^*\in\mathrm{dom}(f)
x∗∈dom(f). 由上镜图的定义, 我们有对
∀
n
≥
1
\forall n\ge1
∀n≥1,
f
(
x
n
)
≤
y
n
.
f(\mathbf{x}_n)\le y_n.
f(xn)≤yn.由
f
f
f在
d
o
m
(
f
)
\mathrm{dom}(f)
dom(f)上的连续性, 特别地, 在
x
∗
\mathbf{x}^*
x∗处的连续性, 在上式两边对
n
n
n取极限后我们得到
f
(
x
∗
)
≤
y
∗
⇒
(
x
∗
,
y
∗
)
∈
e
p
i
(
f
)
.
f(\mathbf{x}^*)\le y^*\Rightarrow(\mathbf{x}^*,y^*)\in\mathrm{epi}(f).
f(x∗)≤y∗⇒(x∗,y∗)∈epi(f).这就证明了上镜图的闭性.
上面定理3的一个特殊情形就是 d o m ( f ) = E \mathrm{dom}(f)=\mathbb{E} dom(f)=E, 即 f f f是实值函数. 则 f f f在 E \mathbb{E} E上连续即可推出 f f f是闭函数. 换句话说, { f : d o m ( f ) = E , f ∈ C ( E ) } ⊂ { f : d o m ( f ) = E , f 在 E 上 是 闭 函 数 } . \{f:\mathrm{dom}(f)=\mathbb{E},f\in C(\mathbb{E})\}\subset\{f:\mathrm{dom}(f)=\mathbb{E},f在\mathbb{E}上是闭函数\}. {f:dom(f)=E,f∈C(E)}⊂{f:dom(f)=E,f在E上是闭函数}.下面我们将说明这个包含是“真”的.
例3 ( ℓ 0 \ell_0 ℓ0-范数2) 考虑 ℓ 0 \ell_0 ℓ0-范数函数 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:Rn→R, 定义为 f ( x ) = ∥ x ∥ 0 = # { i : x i ≠ 0 } . f(\mathbf{x})=\Vert\mathbf{x}\Vert_0=\#\{i:x_i\not=0\}. f(x)=∥x∥0=#{i:xi=0}.即 ∥ x ∥ 0 \Vert\mathbf{x}\Vert_0 ∥x∥0给出的是 x \mathbf{x} x中非零元素的数目. 这时 f f f的有效域是整个实空间 R n \mathbb{R}^n Rn. 而且 f f f还是闭函数. 事实上, 注意到 f ( x ) = ∑ i = 1 n I ( x i ) , f(\mathbf{x})=\sum_{i=1}^nI(x_i), f(x)=i=1∑nI(xi),其中 I : R → { 0 , 1 } I:\mathbb{R}\to\{0,1\} I:R→{0,1}定义为 I ( y ) = { 0 , y = 0 , 1 , y ≠ 0. I(y)=\left\{\begin{array}{ll}0, & y=0,\\1, & y\ne0.\end{array}\right. I(y)={0,1,y=0,y=0.考察 I I I的水平集 L e v ( I , α ) = { ∅ , α < 0 , { 0 } , α ∈ [ 0 , 1 ) , R , α ≥ 1. \mathrm{Lev}(I,\alpha)=\left\{\begin{array}{ll}\emptyset, & \alpha<0,\\\{0\}, & \alpha\in[0,1),\\\mathbb{R}, & \alpha\ge1.\end{array}\right. Lev(I,α)=⎩⎨⎧∅,{0},R,α<0,α∈[0,1),α≥1.显然对 ∀ α ∈ R \forall\alpha\in\mathbb{R} ∀α∈R, 它都是闭集. 因此 I I I是闭函数, 而从定理2的(ii)我们知道, 闭函数的正组合仍然是闭函数. 因此 f f f就是闭的. 但 f f f显然不是连续函数.
下面我们再举一个有效域非整个 E \mathbb{E} E的例子.
例4 考虑如下定义的函数
f
α
:
R
→
(
−
∞
,
∞
]
f_{\alpha}:\mathbb{R}\to(-\infty,\infty]
fα:R→(−∞,∞],
f
α
(
x
)
=
{
α
,
x
=
0
,
x
,
0
<
x
≤
1
,
∞
,
其
它
.
f_{\alpha}(x)=\left\{\begin{array}{ll}\alpha, & x=0,\\x, & 0<x\le1,\\\infty, & 其它.\end{array}\right.
fα(x)=⎩⎨⎧α,x,∞,x=0,0<x≤1,其它.此函数是闭函数当且仅当
α
≤
0
\alpha\le0
α≤0, 而它连续当且仅当
α
=
0
\alpha=0
α=0. 因此, 函数
f
−
0.1
f_{-0.1}
f−0.1 (图示见下图) 就是闭但不连续的.
一些连续函数的性质是可以扩展3到闭函数的. 著名的Weierstrass定理是讲, 连续函数在非空紧集4上必取到最小值. 我们现在证明这个结论对闭函数也对.
定理4 (闭函数的Weierstrass定理) 设
f
:
E
→
(
−
∞
,
∞
]
f:\mathbb{E}\to(-\infty,\infty]
f:E→(−∞,∞]是正常闭函数,
C
C
C为满足
C
∩
d
o
m
(
f
)
≠
∅
C\cap\mathrm{dom}(f)\ne\emptyset
C∩dom(f)=∅的紧集. 于是
(i)
f
f
f在
C
C
C上下有界;
(ii)
f
f
f在
C
C
C上取到最小值.
证明: (i) 反证, 设
f
f
f在
C
C
C上下无界. 则存在序列
{
x
n
}
n
≥
1
⊂
C
\{\mathbf{x}_n\}_{n\ge1}\subset C
{xn}n≥1⊂C使得
lim
n
→
∞
f
(
x
n
)
=
−
∞
.
\lim_{n\to\infty}f(\mathbf{x}_n)=-\infty.
n→∞limf(xn)=−∞.由Bolzano-Weierstrass定理, 从
C
C
C是紧集可推出存在子列
{
x
n
k
}
k
≥
1
\{\mathbf{x}_{n_k}\}_{k\ge1}
{xnk}k≥1收敛到
x
ˉ
∈
C
\bar{\mathbf{x}}\in C
xˉ∈C. 由定理1我们知道,
f
f
f下半连续, 因此
f
(
x
ˉ
)
≤
lim inf
k
→
∞
f
(
x
n
k
)
,
f(\bar\mathbf{x})\le\liminf_{k\to\infty}f(\mathbf{x}_{n_k}),
f(xˉ)≤k→∞liminff(xnk),这与前面的极限式矛盾.
(ii) 记
f
f
f在
C
C
C上的下确界5为
f
o
p
t
f_{\mathrm{opt}}
fopt. 于是存在序列
{
x
n
}
n
≥
1
:
f
(
x
n
)
→
f
o
p
t
\{\mathbf{x}_n\}_{n\ge1}:f(\mathbf{x}_n)\to f_{\mathrm{opt}}
{xn}n≥1:f(xn)→fopt. 如同(i), 存在子列
{
x
n
k
}
k
≥
1
:
x
n
k
→
x
ˉ
∈
C
\{\mathbf{x}_{n_k}\}_{k\ge1}:\mathbf{x}_{n_k}\to\bar\mathbf{x}\in C
{xnk}k≥1:xnk→xˉ∈C. 同样由
f
f
f的下半连续性, 我们得到
f
(
x
ˉ
)
≤
lim
k
→
∞
f
(
x
n
k
)
=
f
o
p
t
⇒
f
(
x
ˉ
)
=
f
o
p
t
.
f(\bar\mathbf{x})\le\lim_{k\to\infty}f(\mathbf{x}_{n_k})=f_{\mathrm{opt}}\Rightarrow f(\bar\mathbf{x})=f_{\mathrm{opt}}.
f(xˉ)≤k→∞limf(xnk)=fopt⇒f(xˉ)=fopt.这说明
f
f
f在
x
ˉ
\bar\mathbf{x}
xˉ处取到在
C
C
C上的最小值.
上述定理4在 C C C非紧时是不一定成立的. 但如果 f f f具有强制性 (coerciveness), 则 C C C只需是闭集即可得到相同的结论. 为此, 我们先给出强制性的定义.
定义3 (强制性) 我们称正常函数 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E→(−∞,∞]是强制的, 若 lim ∥ x ∥ → ∞ f ( x ) = ∞ . \lim_{\Vert\mathbf{x}\Vert\to\infty}f(\mathbf{x})=\infty. ∥x∥→∞limf(x)=∞.
下面我们证明: 强制的闭函数在任何与有效域有非空交的闭集上均能取到最小值.
定理5 (强制性下的最值定理6) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E→(−∞,∞]是正常强制闭函数, S ⊂ E S\subset\mathbb{E} S⊂E为满足 S ∪ d o m ( f ) ≠ ∅ S\cup\mathrm{dom}(f)\ne\emptyset S∪dom(f)=∅的非空闭集. 于是 f f f在 S S S上必能取到最小值.
证明: 任取 x 0 ∈ S ∩ d o m ( f ) \mathbf{x}_0\in S\cap\mathrm{dom}(f) x0∈S∩dom(f). 由 f f f的强制性, 存在 M > 0 M>0 M>0使得 f ( x ) > f ( x 0 ) , ∀ x : ∥ x ∥ > M . f(\mathbf{x})>f(\mathbf{x}_0),\quad\forall\mathbf{x}:\Vert\mathbf{x}\Vert>M. f(x)>f(x0),∀x:∥x∥>M.因为 f o p t ≤ f ( x 0 ) f_{\mathrm{opt}}\le f(\mathbf{x}_0) fopt≤f(x0), 而 S ∩ B ∥ ⋅ ∥ [ 0 , M ] S\cap B_{\Vert\cdot\Vert}[\mathbf{0},M] S∩B∥⋅∥[0,M]紧且非空 (至少有 x 0 \mathbf{x}_0 x0), 于是由定理4我们知道 f f f在 S ∩ B ∥ ⋅ ∥ [ 0 , M ] S\cap B_{\Vert\cdot\Vert}[\mathbf{0},M] S∩B∥⋅∥[0,M]上必取到最小值, 从而在 S S S上必取到最小值. 证毕.
3. 凸函数
3.1 定义与基本性质
类似于闭性, 扩充实值函数的凸性 (convexity) 也是用上镜图定义的.
定义4 (凸函数 (convex functions)) 我们称扩充实值函数 f : E → [ − ∞ , ∞ ] f:\mathbb{E}\to[-\infty,\infty] f:E→[−∞,∞]是凸函数, 若 e p i ( f ) \mathrm{epi}(f) epi(f)是凸集.
下面我们给出正常扩充实值函数是凸函数的几种等价说法.
命题1 设
f
:
E
→
(
−
∞
,
∞
]
f:\mathbb{E}\to(-\infty,\infty]
f:E→(−∞,∞]是正常扩充实值函数, 则以下三件事是等价的7:
(i)
f
f
f是凸函数;
(ii)
d
o
m
(
f
)
\mathrm{dom}(f)
dom(f)是凸集, 且
f
∣
d
o
m
(
f
)
\left.f\right|_{\mathrm{dom}(f)}
f∣dom(f)在
d
o
m
(
f
)
\mathrm{dom}(f)
dom(f)上是凸函数8;
(iii)
f
(
λ
x
+
(
1
−
λ
)
y
)
≤
λ
f
(
x
)
+
(
1
−
λ
)
f
(
y
)
,
∀
x
,
y
∈
E
,
λ
∈
[
0
,
1
]
f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y}),\quad\forall\mathbf{x},\mathbf{y}\in\mathbb{E},\lambda\in[0,1]
f(λx+(1−λ)y)≤λf(x)+(1−λ)f(y),∀x,y∈E,λ∈[0,1]9;
(iv)
d
o
m
(
f
)
\mathrm{dom}(f)
dom(f)是凸集, 且(iii)对
∀
x
,
y
∈
d
o
m
(
f
)
,
λ
∈
[
0
,
1
]
\forall\mathbf{x},\mathbf{y}\in\mathrm{dom}(f),\lambda\in[0,1]
∀x,y∈dom(f),λ∈[0,1]成立.
证明: (i)
⇒
\Rightarrow
⇒(ii) 为证
d
o
m
(
f
)
\mathrm{dom}(f)
dom(f)是凸集, 任取
x
,
y
∈
d
o
m
(
f
)
\mathbf{x,y}\in\mathrm{dom}(f)
x,y∈dom(f), 则
(
x
,
f
(
x
)
)
,
(
y
,
f
(
y
)
)
∈
e
p
i
(
f
)
(\mathbf{x},f(\mathbf{x})),(\mathbf{y},f(\mathbf{y}))\in\mathrm{epi}(f)
(x,f(x)),(y,f(y))∈epi(f). 由
e
p
i
(
f
)
\mathrm{epi}(f)
epi(f)的凸性, 我们知道
(
λ
x
+
(
1
−
λ
)
y
,
λ
f
(
x
)
+
(
1
−
λ
)
f
(
y
)
)
∈
e
p
i
(
f
)
,
∀
λ
∈
[
0
,
1
]
.
(\lambda\mathbf{x}+(1-\lambda)\mathbf{y},\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y}))\in\mathrm{epi}(f),\forall\lambda\in[0,1].
(λx+(1−λ)y,λf(x)+(1−λ)f(y))∈epi(f),∀λ∈[0,1]. 从而
λ
x
+
(
1
−
λ
)
y
∈
d
o
m
(
f
)
,
∀
λ
∈
[
0
,
1
]
\lambda\mathbf{x}+(1-\lambda)\mathbf{y}\in\mathrm{dom}(f),\forall\lambda\in[0,1]
λx+(1−λ)y∈dom(f),∀λ∈[0,1]. 这就证明了
d
o
m
(
f
)
\mathrm{dom}(f)
dom(f)是凸集. 由上式我们还可以推出
f
(
λ
x
+
(
1
−
λ
)
y
)
≤
λ
f
(
x
)
+
(
1
−
λ
)
f
(
y
)
,
∀
x
,
y
∈
d
o
m
(
f
)
,
λ
∈
[
0
,
1
]
.
f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y}),\forall\mathbf{x,y}\in\mathrm{dom}(f),\lambda\in[0,1].
f(λx+(1−λ)y)≤λf(x)+(1−λ)f(y),∀x,y∈dom(f),λ∈[0,1].这就证明了
f
∣
d
o
m
(
f
)
\left.f\right|_{\mathrm{dom}(f)}
f∣dom(f)是凸函数.
(ii)
⇒
\Rightarrow
⇒(iii) 由于
f
∣
d
o
m
(
f
)
\left.f\right|_{\mathrm{dom}(f)}
f∣dom(f)是凸函数是凸函数, 因此(iii)对
∀
x
,
y
∈
d
o
m
(
f
)
,
λ
∈
[
0
,
1
]
\forall\mathbf{x,y}\in\mathrm{dom}(f),\lambda\in[0,1]
∀x,y∈dom(f),λ∈[0,1]是成立的. 若
x
,
y
\mathbf{x},\mathbf{y}
x,y至少有一个在
E
∖
d
o
m
(
f
)
\mathbb{E}\setminus\mathrm{dom}(f)
E∖dom(f)中, 则(iii)显然成立.
(iii)
⇒
\Rightarrow
⇒(iv) 取
x
,
y
∈
d
o
f
(
f
)
\mathbf{x,y}\in\mathrm{dof}(f)
x,y∈dof(f)即可证明
d
o
m
(
f
)
\mathrm{dom}(f)
dom(f)是凸集. 而第二句话则显然成立.
(iv)
⇒
\Rightarrow
⇒(i) 为证
f
f
f是凸函数, 任取
(
x
,
α
)
,
(
y
,
β
)
∈
e
p
i
(
f
)
(\mathbf{x},\alpha),(\mathbf{y},\beta)\in\mathrm{epi}(f)
(x,α),(y,β)∈epi(f). 于是
f
(
λ
x
+
(
1
−
λ
)
y
)
≤
λ
f
(
x
)
+
(
1
−
λ
)
f
(
y
)
≤
λ
α
+
(
1
−
λ
)
β
,
∀
λ
∈
[
0
,
1
]
,
f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})\le\lambda\alpha+(1-\lambda)\beta,\forall\lambda\in[0,1],
f(λx+(1−λ)y)≤λf(x)+(1−λ)f(y)≤λα+(1−λ)β,∀λ∈[0,1],其中第一个不等式由
d
o
m
(
f
)
\mathrm{dom}(f)
dom(f)是凸集以及满足不等式得出, 第二个不等式则由上镜图的定义得出. 因此
(
λ
x
+
(
1
−
λ
)
y
,
λ
α
+
(
1
−
λ
)
β
)
∈
e
p
i
(
f
)
,
∀
λ
∈
[
0
,
1
]
(\lambda\mathbf{x}+(1-\lambda)\mathbf{y},\lambda\alpha+(1-\lambda)\beta)\in\mathrm{epi}(f),\forall\lambda\in[0,1]
(λx+(1−λ)y,λα+(1−λ)β)∈epi(f),∀λ∈[0,1]. 这就证明了
e
p
i
(
f
)
\mathrm{epi}(f)
epi(f)是凸集.
定理6 (保凸性运算)10
(i) 设
A
:
E
→
V
\mathcal{A}:\mathbb{E}\to\mathbb{V}
A:E→V为线性映射,
b
∈
V
\mathbf{b}\in\mathbb{V}
b∈V,
f
:
v
→
(
−
∞
,
∞
]
f:\mathbb{v}\to(-\infty,\infty]
f:v→(−∞,∞]为扩充实值凸函数. 则如下定义的扩充实值函数
g
:
E
→
(
−
∞
,
∞
]
g:\mathbb{E}\to(-\infty,\infty]
g:E→(−∞,∞]
g
(
x
)
=
f
(
A
(
x
)
+
b
)
g(\mathbf{x})=f(\mathcal{A}(\mathbf{x})+\mathbf{b})
g(x)=f(A(x)+b)是凸函数;
(ii) 设
f
1
,
f
2
,
…
,
f
m
:
E
→
(
−
∞
,
∞
]
f_1,f_2,\ldots,f_m:\mathbb{E}\to(-\infty,\infty]
f1,f2,…,fm:E→(−∞,∞]为扩充实值凸函数,
α
1
,
α
2
,
…
,
α
m
∈
R
+
\alpha_1,\alpha_2,\ldots,\alpha_m\in\mathbb{R}_+
α1,α2,…,αm∈R+. 则函数
∑
i
=
1
m
α
i
f
i
\sum_{i=1}^m\alpha_if_i
i=1∑mαifi是凸函数;
(iii) 设
f
i
:
E
→
(
−
∞
,
∞
]
,
i
∈
I
f_i:\mathbb{E}\to(-\infty,\infty],i\in I
fi:E→(−∞,∞],i∈I为扩充实值凸函数, 其中
I
I
I为给定指标集. 则函数
f
(
x
)
=
max
i
∈
I
f
i
(
x
)
f(\mathbf{x})=\max_{i\in I}f_i(\mathbf{x})
f(x)=i∈Imaxfi(x)是凸函数.
证明以上三条时只需注意两点:
- 以上三条对于定义在凸集上的实值凸函数是显然的;
- 命题1的(ii).
详细证明略去.
例5 设 E \mathbb{E} E为欧式空间, C ⊂ E C\subset\mathbb{E} C⊂E为非空集合. 考虑函数 φ C ( x ) = 1 2 ( ∥ x ∥ 2 − d C 2 ( x ) ) , \varphi_C(\mathbf{x})=\frac{1}{2}\left(\Vert\mathbf{x}\Vert^2-d_C^2(\mathbf{x})\right), φC(x)=21(∥x∥2−dC2(x)),其中 d C ( x ) d_C(\mathbf{x}) dC(x)为如下定义的 x \mathbf{x} x到 C C C的距离函数 (distance function)11: d C ( x ) = min y ∈ C ∥ x − y ∥ . d_C(\mathbf{x})=\min_{\mathbf{y}\in C}\Vert\mathbf{x}-\mathbf{y}\Vert. dC(x)=y∈Cmin∥x−y∥.我们将说明不论 C C C是凸集与否, φ C ( x ) \varphi_C(\mathbf{x}) φC(x)必定是凸函数. 注意到 d C 2 ( x ) = min y ∈ C ∥ x − y ∥ 2 = ∥ x ∥ 2 − max y ∈ C [ 2 ⟨ y , x ⟩ − ∥ y ∥ 2 ] . d_C^2(\mathbf{x})=\min_{\mathbf{y}\in C}\Vert\mathbf{x}-\mathbf{y}\Vert^2=\Vert\mathbf{x}\Vert^2-\max_{\mathbf{y}\in C}\left[2\langle\mathbf{y},\mathbf{x}\rangle-\Vert\mathbf{y}\Vert^2\right]. dC2(x)=y∈Cmin∥x−y∥2=∥x∥2−y∈Cmax[2⟨y,x⟩−∥y∥2].因此 φ C ( x ) = max y ∈ C [ ⟨ y , x ⟩ − 1 2 ∥ y ∥ 2 ] . \varphi_C(\mathbf{x})=\max_{\mathbf{y}\in C}\left[\langle\mathbf{y},\mathbf{x}\rangle-\frac{1}{2}\Vert\mathbf{y}\Vert^2\right]. φC(x)=y∈Cmax[⟨y,x⟩−21∥y∥2].固定 y \mathbf{y} y, 内部的 ⟨ y , x ⟩ − 1 2 ∥ y ∥ 2 \langle\mathbf{y},\mathbf{x}\rangle-\frac{1}{2}\Vert\mathbf{y}\Vert^2 ⟨y,x⟩−21∥y∥2是 x \mathbf{x} x的仿射函数 (从而使凸函数), 因此由定理6的(iii), 我们推出 φ C ( x ) \varphi_C(\mathbf{x}) φC(x)是凸函数.
下面我们再介绍一个保凸性的运算: 联合凸函数的部分极小化 (partial minimization of jointly convex functions).
定理7 (部分极小化下的凸性) 设 f : E × V → ( − ∞ , ∞ ] f:\mathbb{E}\times\mathbb{V}\to(-\infty,\infty] f:E×V→(−∞,∞]为满足如下性质的凸函数: ∀ x ∈ E , ∃ y ∈ V , s . t . f ( x , y ) < ∞ . \forall\mathbf{x}\in\mathbb{E},\exists\mathbf{y}\in\mathbb{V}, \mathrm{s.t.}\,f(\mathbf{x},\mathbf{y})<\infty. ∀x∈E,∃y∈V,s.t.f(x,y)<∞.令 g : E → [ − ∞ , ∞ ) g:\mathbb{E}\to[-\infty,\infty) g:E→[−∞,∞)12定义为 g ( x ) ≡ min y ∈ E f ( x , y ) . g(\mathbf{x})\equiv\min_{\mathbf{y}\in\mathbb{E}}f(\mathbf{x},\mathbf{y}). g(x)≡y∈Eminf(x,y).于是 g g g是凸函数.
证明: 取
x
1
,
x
2
∈
E
,
λ
∈
[
0
,
1
]
\mathbf{x}_1,\mathbf{x}_2\in\mathbb{E},\lambda\in[0,1]
x1,x2∈E,λ∈[0,1]. 为证明
g
g
g是凸函数, 由命题1的(iii), 我们等价地证明
g
(
λ
x
1
+
(
1
−
λ
)
x
2
)
≤
λ
g
(
x
1
)
+
(
1
−
λ
)
g
(
x
2
)
.
g(\lambda\mathbf{x}_1+(1-\lambda)\mathbf{x}_2)\le\lambda g(\mathbf{x}_1)+(1-\lambda)g(\mathbf{x}_2).
g(λx1+(1−λ)x2)≤λg(x1)+(1−λ)g(x2).这在
λ
∈
{
0
,
1
}
\lambda\in\{0,1\}
λ∈{0,1}是显然的. 因此我们设
λ
∈
(
0
,
1
)
\lambda\in(0,1)
λ∈(0,1). 我们分两种情形讨论.
情形1: 设
g
(
x
1
)
,
g
(
x
2
)
>
−
∞
g(\mathbf{x}_1),g(\mathbf{x}_2)>-\infty
g(x1),g(x2)>−∞. 任取
ϵ
>
0
\epsilon>0
ϵ>0, 于是存在
y
1
,
y
2
∈
V
\mathbf{y}_1,\mathbf{y}_2\in\mathbb{V}
y1,y2∈V使得
f
(
x
1
,
y
1
)
≤
g
(
x
1
)
+
ϵ
,
f
(
x
2
,
y
2
)
≤
g
(
x
2
)
+
ϵ
.
\begin{aligned}f(\mathbf{x}_1,\mathbf{y}_1)&\le g(\mathbf{x}_1)+\epsilon,\\f(\mathbf{x}_2,\mathbf{y}_2)&\le g(\mathbf{x}_2)+\epsilon.\end{aligned}
f(x1,y1)f(x2,y2)≤g(x1)+ϵ,≤g(x2)+ϵ.由
f
f
f的凸性, 我们有
f
(
λ
x
1
+
(
1
−
λ
)
x
2
,
λ
y
1
+
(
1
−
λ
)
y
2
)
≤
λ
f
(
x
1
,
y
1
)
+
(
1
−
λ
)
f
(
x
2
,
y
2
)
≤
λ
(
g
(
x
1
)
+
ϵ
)
+
(
1
−
λ
)
(
g
(
x
2
)
+
ϵ
)
=
λ
g
(
x
1
)
+
(
1
−
λ
)
g
(
x
2
)
+
ϵ
.
\begin{aligned}f(\lambda\mathbf{x}_1+(1-\lambda)\mathbf{x}_2,\lambda\mathbf{y}_1+(1-\lambda)\mathbf{y}_2)&\le\lambda f(\mathbf{x}_1,\mathbf{y}_1)+(1-\lambda)f(\mathbf{x}_2,\mathbf{y}_2)\\&\le\lambda(g(\mathbf{x}_1)+\epsilon)+(1-\lambda)(g(\mathbf{x}_2)+\epsilon)\\&=\lambda g(\mathbf{x}_1)+(1-\lambda)g(\mathbf{x}_2)+\epsilon.\end{aligned}
f(λx1+(1−λ)x2,λy1+(1−λ)y2)≤λf(x1,y1)+(1−λ)f(x2,y2)≤λ(g(x1)+ϵ)+(1−λ)(g(x2)+ϵ)=λg(x1)+(1−λ)g(x2)+ϵ.而由
g
g
g的定义, 我们有
g
(
λ
x
1
+
(
1
−
λ
)
x
2
)
≤
λ
g
(
x
1
)
+
(
1
−
λ
)
g
(
x
2
)
+
ϵ
.
g(\lambda\mathbf{x}_1+(1-\lambda)\mathbf{x}_2)\le\lambda g(\mathbf{x}_1)+(1-\lambda)g(\mathbf{x}_2)+\epsilon.
g(λx1+(1−λ)x2)≤λg(x1)+(1−λ)g(x2)+ϵ.由于上式对
∀
ϵ
>
0
\forall\epsilon>0
∀ϵ>0均成立, 于是我们得证.
情形2: 设
g
(
x
1
)
,
g
(
x
2
)
g(\mathbf{x}_1),g(\mathbf{x}_2)
g(x1),g(x2)二者至少有一个取到
−
∞
-\infty
−∞. 不失一般性, 设
g
(
x
1
)
=
−
∞
g(\mathbf{x}_1)=-\infty
g(x1)=−∞. 于是我们只需证明
g
(
λ
x
1
+
(
1
−
λ
)
y
)
=
−
∞
g(\lambda\mathbf{x}_1+(1-\lambda)\mathbf{y})=-\infty
g(λx1+(1−λ)y)=−∞. 对
∀
M
<
0
\forall M<0
∀M<0, 由于
g
(
x
1
)
=
−
∞
g(\mathbf{x}_1)=-\infty
g(x1)=−∞, 因此存在
y
1
∈
V
\mathbf{y}_1\in\mathbb{V}
y1∈V使得
f
(
x
1
,
y
1
)
≤
M
.
f(\mathbf{x}_1,\mathbf{y}_1)\le M.
f(x1,y1)≤M.由条件可知, 存在
y
2
∈
V
\mathbf{y}_2\in\mathbb{V}
y2∈V使得
f
(
x
2
,
y
2
)
<
∞
f(\mathbf{x}_2,\mathbf{y}_2)<\infty
f(x2,y2)<∞.利用
f
f
f的凸性, 我们得到
f
(
λ
x
1
+
(
1
−
λ
)
x
2
,
λ
y
1
+
(
1
−
λ
)
y
2
)
≤
λ
f
(
x
1
,
y
1
)
+
(
1
−
λ
)
f
(
x
2
,
y
2
)
≤
λ
M
+
(
1
−
λ
)
f
(
x
2
,
y
2
)
.
\begin{aligned}f(\lambda\mathbf{x}_1+(1-\lambda)\mathbf{x}_2,\lambda\mathbf{y}_1+(1-\lambda)\mathbf{y}_2)&\le\lambda f(\mathbf{x}_1,\mathbf{y}_1)+(1-\lambda)f(\mathbf{x}_2,\mathbf{y}_2)\\&\le\lambda M+(1-\lambda)f(\mathbf{x}_2,\mathbf{y}_2).\end{aligned}
f(λx1+(1−λ)x2,λy1+(1−λ)y2)≤λf(x1,y1)+(1−λ)f(x2,y2)≤λM+(1−λ)f(x2,y2).于是再次由
g
g
g的定义,
g
(
λ
x
1
+
(
1
−
λ
)
x
2
)
≤
λ
M
+
(
1
−
λ
)
f
(
x
2
,
y
2
)
.
g(\lambda\mathbf{x}_1+(1-\lambda)\mathbf{x}_2)\le\lambda M+(1-\lambda)f(\mathbf{x}_2,\mathbf{y}_2).
g(λx1+(1−λ)x2)≤λM+(1−λ)f(x2,y2).对上式取
λ
=
1
\lambda=1
λ=1并令
M
→
−
∞
M\to-\infty
M→−∞, 即可得证.
3.2 极小卷积
设 h 1 , h 2 : E → ( − ∞ , ∞ ] h_1,h_2:\mathbb{E}\to(-\infty,\infty] h1,h2:E→(−∞,∞]为两个正常函数. 则 h 1 , h 2 h_1,h_2 h1,h2的极小卷积 (infimal convolution) h 1 □ h 2 h_1\square h_2 h1□h2定义为 ( h 1 □ h 2 ) ( x ) ≡ min u ∈ E { h 1 ( u ) + h 2 ( x − u ) } . (h_1\square h_2)(\mathbf{x})\equiv\min_{\mathbf{u}\in\mathbb{E}}\{h_1(\mathbf{u})+h_2(\mathbf{x}-\mathbf{u})\}. (h1□h2)(x)≡u∈Emin{h1(u)+h2(x−u)}.将定理7直接应用到这里, 我们可得一个正常凸函数和一个实值凸函数的极小卷积总是凸函数.
定理8 (极小卷积的凸性) 设 h 1 : E → ( − ∞ , ∞ ] h_1:\mathbb{E}\to(-\infty,\infty] h1:E→(−∞,∞]为一正常凸函数, h 2 : E → R h_2:\mathbb{E}\to\mathbb{R} h2:E→R为一实值凸函数. 则 h 1 □ h 2 h_1\square h_2 h1□h2是凸函数.
证明: 定义 f ( x , y ) ≡ h 1 ( y ) + h 2 ( x − y ) f(\mathbf{x},\mathbf{y})\equiv h_1(\mathbf{y})+h_2(\mathbf{x}-\mathbf{y}) f(x,y)≡h1(y)+h2(x−y). h 1 , h 2 h_1,h_2 h1,h2的凸性可推出 f f f的凸性. 另外, 显然任取 x ∈ E \mathbf{x}\in\mathbb{E} x∈E, 总存在 y ∈ d o m ( h 1 ) \mathbf{y}\in\mathrm{dom}(h_1) y∈dom(h1), 使得 f ( x , y ) < ∞ f(\mathbf{x},\mathbf{y})<\infty f(x,y)<∞. 因此由定理7, 极小卷积 h 1 □ h 2 h_1\square h_2 h1□h2作为 f ( ⋅ , ⋅ ) f(\cdot,\cdot) f(⋅,⋅)的对第二自变量的部分极小化, 是一个凸函数.
例6 (距离函数的凸性) 设 C ⊂ E C\subset\mathbb{E} C⊂E为一非空凸集. 于是距离函数可以表示成如下的极小卷积: d C ( x ) = min y { ∥ x − y ∥ : y ∈ C } = min y ∈ E { δ C ( y ) + ∥ x − y ∥ } = ( δ C □ h 1 ) ( x ) , d_C(\mathbf{x})=\min_{\mathbf{y}}\{\Vert\mathbf{x}-\mathbf{y}\Vert:\mathbf{y}\in C\}=\min_{\mathbf{y}\in\mathbb{E}}\{\delta_{C}(\mathbf{y})+\Vert\mathbf{x}-\mathbf{y}\Vert\}=(\delta_C\square h_1)(\mathbf{x}), dC(x)=ymin{∥x−y∥:y∈C}=y∈Emin{δC(y)+∥x−y∥}=(δC□h1)(x),其中 h 1 ( ⋅ ) = ∥ ⋅ ∥ h_1(\cdot)=\Vert\cdot\Vert h1(⋅)=∥⋅∥. 由于 δ C \delta_C δC为正常凸函数, h 1 h_1 h1为实值凸函数 (范数的三角不等式性和正齐次性), 因此定理8告诉我们 d C d_C dC是凸函数.
3.3 凸函数的连续性
众所周知, 凸函数在其定义域的内点处是连续的. 下面我们给出一个更强的结论: 凸函数的局部Lipschitz连续性.
定理9 (凸函数的局部Lipschitz连续性) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E→(−∞,∞]是凸函数, x 0 ∈ i n t ( d o m ( f ) ) \mathbf{x}_0\in\mathrm{int}(\mathrm{dom}(f)) x0∈int(dom(f)). 于是存在 ϵ > 0 , L > 0 \epsilon>0,L>0 ϵ>0,L>0使得 B [ x 0 , ϵ ] ⊂ d o m ( f ) B[\mathbf{x}_0,\epsilon]\subset \mathrm{dom}(f) B[x0,ϵ]⊂dom(f)且 ∣ f ( x ) − f ( x 0 ) ∣ ≤ L ∥ x − x 0 ∥ , ∀ x ∈ B [ x 0 , ϵ ] . |f(\mathbf{x})-f(\mathbf{x}_0)|\le L\Vert\mathbf{x}-\mathbf{x}_0\Vert,\quad\forall\mathbf{x}\in B[\mathbf{x}_0,\epsilon]. ∣f(x)−f(x0)∣≤L∥x−x0∥,∀x∈B[x0,ϵ].
证明: 由于
x
0
∈
i
n
t
(
d
o
m
(
f
)
)
\mathbf{x}_0\in\mathrm{int}(\mathrm{dom}(f))
x0∈int(dom(f)), 于是存在
ϵ
>
0
\epsilon>0
ϵ>0, 使得
B
∥
⋅
∥
∞
[
x
0
,
ϵ
]
⊂
d
o
m
(
f
)
B_{\Vert\cdot\Vert_{\infty}}[\mathbf{x}_0,\epsilon]\subset\mathrm{dom}(f)
B∥⋅∥∞[x0,ϵ]⊂dom(f). 而对
∀
x
∈
E
\forall\mathbf{x}\in\mathbb{E}
∀x∈E,
∥
x
∥
∞
≤
∥
x
∥
2
=
∥
x
∥
\Vert\mathbf{x}\Vert_{\infty}\le\Vert\mathbf{x}\Vert_2=\Vert\mathbf{x}\Vert
∥x∥∞≤∥x∥2=∥x∥. 于是
B
[
x
0
,
ϵ
]
=
B
∥
⋅
∥
2
[
x
0
,
ϵ
]
⊂
B
∥
⋅
∥
∞
[
x
0
,
ϵ
]
⊂
d
o
m
(
f
)
.
B[\mathbf{x}_0,\epsilon]=B_{\Vert\cdot\Vert_2}[\mathbf{x}_0,\epsilon]\subset B_{\Vert\cdot\Vert_{\infty}}[\mathbf{x}_0,\epsilon]\subset\mathrm{dom}(f).
B[x0,ϵ]=B∥⋅∥2[x0,ϵ]⊂B∥⋅∥∞[x0,ϵ]⊂dom(f).下面我们先证明在
B
[
x
0
,
ϵ
]
B[\mathbf{x}_0,\epsilon]
B[x0,ϵ]中,
f
f
f是有界的. 任取
∀
x
∈
B
[
x
0
,
ϵ
]
⊂
B
∥
⋅
∥
∞
[
x
0
,
ϵ
]
\forall\mathbf{x}\in B[\mathbf{x}_0,\epsilon]\subset B_{\Vert\cdot\Vert_{\infty}}[\mathbf{x}_0,\epsilon]
∀x∈B[x0,ϵ]⊂B∥⋅∥∞[x0,ϵ]. 由于
B
∥
⋅
∥
∞
[
x
0
,
ϵ
]
B_{\Vert\cdot\Vert_{\infty}}[\mathbf{x}_0,\epsilon]
B∥⋅∥∞[x0,ϵ]有
2
n
2^n
2n个极点
{
v
i
}
i
=
1
2
n
=
{
x
0
+
ϵ
w
i
}
i
=
1
2
n
\{\mathbf{v}_i\}_{i=1}^{2^n}=\{\mathbf{x}_0+\epsilon\mathbf{w}_i\}_{i=1}^{2^n}
{vi}i=12n={x0+ϵwi}i=12n, 其中
w
i
∈
{
−
1
,
1
}
n
\mathbf{w}_i\in\{-1,1\}^n
wi∈{−1,1}n, 于是利用Krein-Milman定理, 我们推出存在
λ
∈
Δ
2
n
\mathbf{\lambda}\in\Delta_{2^n}
λ∈Δ2n, 使得
x
=
∑
i
=
1
2
n
λ
i
v
i
\mathbf{x}=\sum_{i=1}^{2^n}\lambda_i\mathbf{v}_i
x=∑i=12nλivi. 再用Jensen不等式, 我们有
f
(
x
)
≤
∑
i
=
1
2
n
λ
i
f
(
v
i
)
≤
∑
i
=
1
2
n
∣
f
(
v
i
)
∣
≜
M
.
f(\mathbf{x})\le\sum_{i=1}^{2^n}\lambda_if(\mathbf{v}_i)\le\sum_{i=1}^{2^n}|f(\mathbf{v}_i)|\triangleq M.
f(x)≤i=1∑2nλif(vi)≤i=1∑2n∣f(vi)∣≜M.下面我们证明定理的结论: 任取
x
∈
B
[
x
0
,
ϵ
]
\mathbf{x}\in B[\mathbf{x}_0,\epsilon]
x∈B[x0,ϵ], 记
z
=
x
0
+
1
α
(
x
−
x
0
)
,
\mathbf{z}=\mathbf{x}_0+\frac{1}{\alpha}(\mathbf{x}-\mathbf{x}_0),
z=x0+α1(x−x0),其中
α
=
∥
x
−
x
0
∥
ϵ
\alpha=\frac{\Vert\mathbf{x}-\mathbf{x}_0\Vert}{\epsilon}
α=ϵ∥x−x0∥. 于是易知
α
∈
[
0
,
1
]
\alpha\in[0,1]
α∈[0,1]且
z
∈
B
[
x
0
,
ϵ
]
\mathbf{z}\in B[\mathbf{x}_0,\epsilon]
z∈B[x0,ϵ]. 因此我们有
α
M
≥
α
f
(
z
)
≥
f
(
x
)
−
(
1
−
α
)
f
(
x
0
)
=
f
(
x
)
−
f
(
x
0
)
+
α
f
(
x
0
)
.
\begin{aligned}\alpha M\ge \alpha f(\mathbf{z})&\ge f(\mathbf{x})-(1-\alpha)f(\mathbf{x}_0)\\&= f(\mathbf{x})-f(\mathbf{x}_0)+\alpha f(\mathbf{x}_0).\end{aligned}
αM≥αf(z)≥f(x)−(1−α)f(x0)=f(x)−f(x0)+αf(x0).其中第二个不等号来自Jensen不等式. 于是我们就得到
f
(
x
)
−
f
(
x
0
)
≤
α
(
M
−
f
(
x
0
)
)
=
M
−
f
(
x
0
)
ϵ
∥
x
−
x
0
∥
.
f(\mathbf{x})-f(\mathbf{x}_0)\le\alpha(M-f(\mathbf{x}_0))=\frac{M-f(\mathbf{x}_0)}{\epsilon}\Vert\mathbf{x}-\mathbf{x}_0\Vert.
f(x)−f(x0)≤α(M−f(x0))=ϵM−f(x0)∥x−x0∥.下面我们证明另一边. 记
u
=
x
0
+
1
α
(
x
0
−
x
)
.
\mathbf{u}=\mathbf{x}_0+\frac{1}{\alpha}(\mathbf{x}_0-\mathbf{x}).
u=x0+α1(x0−x).类似地,
u
∈
B
[
x
0
,
ϵ
]
\mathbf{u}\in B[\mathbf{x}_0,\epsilon]
u∈B[x0,ϵ]. 因此
M
≥
f
(
u
)
≥
α
+
1
α
(
f
(
x
0
)
−
1
α
+
1
f
(
x
)
)
=
f
(
x
0
)
+
1
α
(
f
(
x
0
)
−
f
(
x
)
)
.
\begin{aligned} M\ge f(\mathbf{u})&\ge \frac{\alpha+1}{\alpha}\left(f(\mathbf{x}_0)-\frac{1}{\alpha+1}f(\mathbf{x})\right)\\&=f(\mathbf{x}_0)+\frac{1}{\alpha}\left(f(\mathbf{x}_0)-f(\mathbf{x})\right).\end{aligned}
M≥f(u)≥αα+1(f(x0)−α+11f(x))=f(x0)+α1(f(x0)−f(x)).从而有
f
(
x
0
)
−
f
(
x
)
≤
α
(
M
−
f
(
x
0
)
)
=
M
−
f
(
x
0
)
ϵ
∥
x
−
x
0
∥
.
f(\mathbf{x}_0)-f(\mathbf{x})\le\alpha(M-f(\mathbf{x}_0))=\frac{M-f(\mathbf{x}_0)}{\epsilon}\Vert\mathbf{x}-\mathbf{x}_0\Vert.
f(x0)−f(x)≤α(M−f(x0))=ϵM−f(x0)∥x−x0∥.结合上面的讨论, 我们就得到
∣
f
(
x
0
)
−
f
(
x
)
∣
≤
M
−
f
(
x
0
)
ϵ
∥
x
−
x
0
∥
≜
L
∥
x
−
x
0
∥
.
|f(\mathbf{x}_0)- f(\mathbf{x})|\le\frac{M- f(\mathbf{x}_0)}{\epsilon}\Vert\mathbf{x-x_0}\Vert\triangleq L\Vert\mathbf{x-x_0}\Vert.
∣f(x0)−f(x)∣≤ϵM−f(x0)∥x−x0∥≜L∥x−x0∥.
证毕.
凸函数在边界点是不必连续的. 甚至在函数是闭凸的时, 这一点依然得不到保障 (见后文的例13). 但下面我们将说明单变量的闭凸函数在其有效域上一定是连续函数.
定理10 (单变量闭凸函数的连续性) 设 f : R → ( − ∞ , ∞ ] f:\mathbb{R}\to(-\infty,\infty] f:R→(−∞,∞]为正常的闭凸函数. 则 f f f在 d o m ( f ) \mathrm{dom}(f) dom(f)上是连续的.
证明: 由于 f f f是凸函数, 因此其有效域为某个区间 I = d o m ( f ) I=\mathrm{dom}(f) I=dom(f). 若 i n t ( I ) = ∅ \mathrm{int}(I)=\emptyset int(I)=∅, 则 I I I为单点集, f f f在其上的连续性是显然的. 于是设 i n t ( I ) ≠ ∅ \mathrm{int}(I)\ne\emptyset int(I)=∅. 定理9告诉我们, f f f在 i n t ( I ) \mathrm{int}(I) int(I)上连续. 因此我们只需证明 f f f在 I I I的边界点 (如果存在的话) 上连续. 为此, 不失一般性, 我们假设 I I I有左端点 a a a. 下面证明 f f f在 a a a处的右连续性. 首先证明 lim t → a + f ( t ) \lim_{t\to a^+}f(t) limt→a+f(t)存在. 任取 c ∈ I : c > a c\in I:c>a c∈I:c>a, 定义函数 g ( t ) = f ( c − t ) − f ( c ) t . g(t)=\frac{f(c-t)-f(c)}{t}. g(t)=tf(c−t)−f(c).显然 g g g是定义在 ( 0 , c − a ] (0,c-a] (0,c−a]上的. 我们将证明 g g g在 ( 0 , c − a ] (0,c-a] (0,c−a]上非减且上有界. 为此, 任取 0 < t ≤ s ≤ c − a 0<t\le s\le c-a 0<t≤s≤c−a. 于是 c − t = ( 1 − t s ) c + t s ( c − s ) , c-t=\left(1-\frac{t}{s}\right)c+\frac{t}{s}(c-s), c−t=(1−st)c+st(c−s),因此由 f f f的凸性可得 f ( c − t ) ≤ ( 1 − t s ) f ( c ) + t s f ( c − s ) , f(c-t)\le\left(1-\frac{t}{s}\right)f(c)+\frac{t}{s}f(c-s), f(c−t)≤(1−st)f(c)+stf(c−s),稍作整理后, 可得 f ( c − t ) − f ( c ) t ≤ f ( c − s ) − f ( c ) s . \frac{f(c-t)-f(c)}{t}\le\frac{f(c-s)-f(c)}{s}. tf(c−t)−f(c)≤sf(c−s)−f(c).因此 g ( t ) ≤ g ( s ) , ∀ 0 < t ≤ s ≤ c − a . g(t)\le g(s),\quad\forall 0<t\le s\le c-a. g(t)≤g(s),∀0<t≤s≤c−a. 即 g g g在 ( 0 , c − a ] (0,c-a] (0,c−a]上非减. 进一步地, g ( t ) ≤ g ( c − a ) , ∀ t ∈ ( 0 , c − a ] . g(t)\le g(c-a),\quad\forall t\in(0,c-a]. g(t)≤g(c−a),∀t∈(0,c−a].这就证明了 g g g在 ( 0 , c − a ] (0,c-a] (0,c−a]上有界. 由数学分析我们可推出 lim t → ( c − a ) − g ( t ) \lim_{t\to(c-a)^-}g(t) limt→(c−a)−g(t)存在, 记为 ℓ \ell ℓ. 因此 f ( c − t ) = f ( c ) + t g ( t ) → f ( c ) + ( c − a ) ℓ , f(c-t)=f(c)+tg(t)\to f(c)+(c-a)\ell, f(c−t)=f(c)+tg(t)→f(c)+(c−a)ℓ, lim t → a + f ( t ) \lim_{t\to a^+}f(t) limt→a+f(t)也存在且等于 f ( c ) + ( c − a ) ℓ f(c)+(c-a)\ell f(c)+(c−a)ℓ. 由 g g g的上有界, 我们可得 f ( c − t ) = f ( c ) + t g ( t ) ≤ f ( c ) + ( c − a ) g ( c − a ) = f ( a ) ⇒ lim t → a + f ( t ) ≤ f ( a ) . f(c-t)=f(c)+tg(t)\le f(c)+(c-a)g(c-a)=f(a)\Rightarrow\lim_{t\to a^+}f(t)\le f(a). f(c−t)=f(c)+tg(t)≤f(c)+(c−a)g(c−a)=f(a)⇒t→a+limf(t)≤f(a).另一方面, 因 f f f是凸函数等价于 f f f下半连续, 所以又有 f ( a ) ≤ lim t → a + f ( t ) f(a)\le\lim_{t\to a^+}f(t) f(a)≤limt→a+f(t). 所以就有 f ( a ) = lim t → a − f ( t ) f(a)=\lim_{t\to a^-}f(t) f(a)=limt→a−f(t), 证明了 f f f在 a a a处的右连续性. 证毕.
4. 支撑函数
设 C ⊂ E C\subset\mathbb{E} C⊂E为非空集合. 则 C C C的支撑函数 (support function) 为如下定义的 σ C : E ∗ → ( − ∞ , ∞ ] \sigma_C:\mathbb{E}^*\to(-\infty,\infty] σC:E∗→(−∞,∞], σ C ( y ) = max x ∈ C ⟨ y , x ⟩ . \sigma_C(\mathbf{y})=\max_{\mathbf{x}\in C}\langle\mathbf{y},\mathbf{x}\rangle. σC(y)=x∈Cmax⟨y,x⟩.固定 x x x, 则线性函数 y ↦ ⟨ y , x ⟩ \mathbf{y}\mapsto\langle\mathbf{y},\mathbf{x}\rangle y↦⟨y,x⟩显然是闭凸函数. 因此我们由定理2的(iii)和定理6的(iii)可知, 支撑函数也是闭凸函数. 而这与 C C C是闭或是凸集与否无关.
引理1 (支撑函数的闭凸性) 设 C ⊂ E C\subset\mathbb{E} C⊂E为一非空集合. 则 σ C \sigma_C σC为闭凸函数.
这里注意到,
σ
C
\sigma_C
σC是定义在
E
∗
\mathbb{E}^*
E∗上的函数. 而之前我们说过
E
\mathbb{E}
E和
E
∗
\mathbb{E}^*
E∗在元素上可以视作相同. 因此,
σ
C
\sigma_C
σC定义在
E
\mathbb{E}
E还是
E
∗
\mathbb{E}^*
E∗上从元素的对应角度上没有差别. 但如果涉及到了范数, 我们就必须使用对偶范数 (参见例12).
下面我们简单列举支撑函数的一些性质. 在这之前我们给出两个集合运算律: 给定属于同一空间的两集合
A
,
B
A,B
A,B
(i) Minkowski和:
A
+
B
=
{
a
+
b
:
a
∈
A
,
b
∈
B
}
.
A+B=\{\mathbf{a}+\mathbf{b}:\mathbf{a}\in A,\mathbf{b}\in B\}.
A+B={a+b:a∈A,b∈B}.
(ii) 数乘:
∀
α
∈
R
\forall\alpha\in\mathbb{R}
∀α∈R,
α
A
=
{
α
a
:
a
∈
A
}
.
\alpha A=\{\alpha\mathbf{a}:\mathbf{a}\in A\}.
αA={αa:a∈A}.
引理2 (支撑函数的性质) 对任意非空集合
C
⊂
E
C\subset\mathbb{E}
C⊂E,
(i) (正齐次性) 对
∀
y
∈
E
∗
\forall\mathbf{y}\in\mathbb{E}^*
∀y∈E∗,
α
≥
0
\alpha\ge0
α≥0,
σ
C
(
α
y
)
=
α
σ
C
(
y
)
.
\sigma_C(\alpha\mathbf{y})=\alpha\sigma_C(\mathbf{y}).
σC(αy)=ασC(y).
(ii) (次可加性 (subadditivity)) 对
∀
y
1
,
y
2
∈
E
∗
\forall\mathbf{y}_1,\mathbf{y}_2\in\mathbb{E}^*
∀y1,y2∈E∗,
σ
C
(
y
1
+
y
2
)
≤
σ
C
(
y
1
)
+
σ
C
(
y
2
)
.
\sigma_C(\mathbf{y}_1+\mathbf{y}_2)\le\sigma_C(\mathbf{y}_1)+\sigma_C(\mathbf{y}_2).
σC(y1+y2)≤σC(y1)+σC(y2).
(iii) 对
∀
y
∈
E
∗
\forall\mathbf{y}\in\mathbb{E}^*
∀y∈E∗,
α
≥
0
\alpha\ge0
α≥0,
σ
α
C
(
y
)
=
α
σ
C
(
y
)
.
\sigma_{\alpha C}(\mathbf{y})=\alpha\sigma_C(\mathbf{y}).
σαC(y)=ασC(y).
(iv) 对任意非空集合
A
,
B
∈
E
,
y
∈
E
∗
A,B\in\mathbb{E},\mathbf{y}\in\mathbb{E}^*
A,B∈E,y∈E∗,
σ
A
+
B
(
y
)
=
σ
A
(
y
)
+
σ
B
(
y
)
.
\sigma_{A+B}(\mathbf{y})=\sigma_A(\mathbf{y})+\sigma_B(\mathbf{y}).
σA+B(y)=σA(y)+σB(y).
证明: 我们仅证明(iv). σ A + B ( y ) = max x ∈ A + B ⟨ y , x ⟩ = max x 1 ∈ A , x 2 ∈ B ⟨ y , x 1 + x 2 ⟩ = max x 1 ∈ A , x 2 ∈ B [ ⟨ y , x 1 ⟩ + ⟨ y , x 2 ⟩ ] = max x 1 ∈ A ⟨ y , x 1 ⟩ + max x 2 ∈ B ⟨ y , x 2 ⟩ = σ A ( y ) + σ B ( y ) . \begin{aligned}\sigma_{A+B}(\mathbf{y})&=\max_{\mathbf{x}\in A+B}\langle\mathbf{y},\mathbf{x}\rangle=\max_{\mathbf{x}_1\in A,\mathbf{x}_2\in B}\langle\mathbf{y},\mathbf{x}_1+\mathbf{x}_2\rangle\\&=\max_{\mathbf{x}_1\in A,\mathbf{x}_2\in B}[\langle\mathbf{y},\mathbf{x}_1\rangle+\langle\mathbf{y},\mathbf{x}_2\rangle]=\max_{\mathbf{x}_1\in A}\langle\mathbf{y},\mathbf{x}_1\rangle+\max_{\mathbf{x}_2\in B}\langle\mathbf{y},\mathbf{x}_2\rangle\\&=\sigma_A(\mathbf{y})+\sigma_B(\mathbf{y}).\end{aligned} σA+B(y)=x∈A+Bmax⟨y,x⟩=x1∈A,x2∈Bmax⟨y,x1+x2⟩=x1∈A,x2∈Bmax[⟨y,x1⟩+⟨y,x2⟩]=x1∈Amax⟨y,x1⟩+x2∈Bmax⟨y,x2⟩=σA(y)+σB(y).
下面我们通过举例向读者展示一些具体的支撑函数.
4.1 有限集的支撑函数
例7 (有限集的支撑函数) 设 C = { b 1 , b 2 , … , b m } , C=\{\mathbf{b}_1,\mathbf{b}_2,\ldots,\mathbf{b}_m\}, C={b1,b2,…,bm},其中 b 1 , b 2 , … , b m ∈ E \mathbf{b}_1,\mathbf{b}_2,\ldots,\mathbf{b}_m\in\mathbb{E} b1,b2,…,bm∈E. 于是 σ C ( y ) = max { ⟨ b 1 , y ⟩ , ⟨ b 2 , y ⟩ , … , ⟨ b m , y ⟩ } . \boxed{\sigma_C(\mathbf{y})=\max\{\langle\mathbf{b}_1,\mathbf{y}\rangle,\langle\mathbf{b}_2,\mathbf{y}\rangle,\ldots,\langle\mathbf{b}_m,\mathbf{y}\rangle\}.} σC(y)=max{⟨b1,y⟩,⟨b2,y⟩,…,⟨bm,y⟩}.
4.2 锥的支撑函数
例8 (锥的支撑函数) 设 K ⊂ E K\subset\mathbb{E} K⊂E为锥. 定义 K K K的极锥 (polar cone) 为 K ∘ = { y ∈ E ∗ : ⟨ y , x ⟩ ≤ 0 , ∀ x ∈ K } . K^{\circ}=\{\mathbf{y}\in\mathbb{E}^*:\langle\mathbf{y},\mathbf{x}\rangle\le0,\forall\mathbf{x}\in K\}. K∘={y∈E∗:⟨y,x⟩≤0,∀x∈K}.即(从 E = E ∗ \mathbb{E}=\mathbb{E}^* E=E∗的观点看)极锥 K ∘ K^{\circ} K∘包含了那些与 K K K中任意向量成钝角的那些向量. 我们下面证明 σ K ( y ) = δ K ∘ ( y ) . \boxed{\sigma_K(\mathbf{y})=\delta_{K^{\circ}}(\mathbf{y}).} σK(y)=δK∘(y).事实上, 若 y ∈ K ∘ \mathbf{y}\in K^{\circ} y∈K∘, 则 ⟨ y , x ⟩ ≤ 0 , ∀ x ∈ K \langle\mathbf{y},\mathbf{x}\rangle\le0,\forall\mathbf{x}\in K ⟨y,x⟩≤0,∀x∈K; 特别地, 当 x = 0 \mathbf{x}=0 x=0时, ⟨ y , x ⟩ = 0 \langle\mathbf{y},\mathbf{x}\rangle=0 ⟨y,x⟩=0. 因此 σ K ( y ) = max x ∈ K ⟨ y , x ⟩ = 0. \sigma_K(\mathbf{y})=\max_{\mathbf{x}\in K}\langle\mathbf{y,x}\rangle=0. σK(y)=x∈Kmax⟨y,x⟩=0.而若 y ∉ K ∘ \mathbf{y}\notin K^{\circ} y∈/K∘, 则存在 x ~ ∈ K \tilde\mathbf{x}\in K x~∈K使得 ⟨ y , x ~ ⟩ > 0 \langle\mathbf{y},\tilde\mathbf{x}\rangle>0 ⟨y,x~⟩>0. 由于 λ x ~ ∈ K , ∀ λ ≥ 0 \lambda\tilde\mathbf{x}\in K,\forall\lambda\ge0 λx~∈K,∀λ≥0, 因此我们有 σ K ( y ) ≥ ⟨ y , λ x ~ ⟩ = λ ⟨ y , x ~ ⟩ , ∀ λ ≥ 0. \sigma_K(\mathbf{y})\ge\langle\mathbf{y},\lambda\tilde\mathbf{x}\rangle=\lambda\langle\mathbf{y},\tilde\mathbf{x}\rangle,\quad\forall\lambda\ge0. σK(y)≥⟨y,λx~⟩=λ⟨y,x~⟩,∀λ≥0.令 λ → ∞ \lambda\to\infty λ→∞, 我们就推出 σ K ( y ) = ∞ , ∀ y ∉ K ∘ \sigma_K(\mathbf{y})=\infty,\forall\mathbf{y}\notin K^{\circ} σK(y)=∞,∀y∈/K∘. 得证.
例9 (非负象限的支撑函数) 考虑实空间 E = R n \mathbb{E}=\mathbb{R}^n E=Rn. 作为例8的特殊情形, 由于 ( R + n ) ∘ = R − n \left(\mathbb{R}^n_+\right)^{\circ}=\mathbb{R}^n_- (R+n)∘=R−n, 因此例8的结论变成 σ R + n ( y ) = δ R − n ( y ) . \boxed{\sigma_{\mathbb{R}^n_+}(\mathbf{y})=\delta_{\mathbb{R}^n_-}(\mathbf{y}).} σR+n(y)=δR−n(y).
下面我们讨论凸多面体锥 (convex polyhedral cone) 的支撑函数. 为此, 我们先证明一个择一性定理——Farkas引理 (Farkas’s lemma).
引理3 (Farkas引理——第二形式) 设
c
∈
R
n
,
A
∈
R
m
×
n
\mathbf{c}\in\mathbb{R}^n,\mathbf{A}\in\mathbb{R}^{m\times n}
c∈Rn,A∈Rm×n. 于是下面两件事是等价的:
(i) 从
A
x
≤
0
\mathbf{Ax}\le\mathbf{0}
Ax≤0可推出
c
T
x
≤
0
\mathbf{c}^T\mathbf{x}\le0
cTx≤0;
(ii) 存在
y
∈
R
+
m
\mathbf{y}\in\mathbb{R}^m_+
y∈R+m, 使得
A
T
y
=
c
\mathbf{A}^T\mathbf{y}=\mathbf{c}
ATy=c.
证明: 从(ii)证(i)是显然的. 下面我们用反证法证明反方向. 若不然, 由原始形式的Farkas引理可知, 存在 d ∈ R n \mathbf{d}\in\mathbb{R}^n d∈Rn, 使得 A d ≥ 0 , c T d < 0 \mathbf{Ad}\ge\mathbf{0},\mathbf{c}^T\mathbf{d}<0 Ad≥0,cTd<0. 于是 A ( − d ) ≤ 0 ⇒ − c T d ≤ 0 ⇒ c T d ≥ 0 \mathbf{A}(-\mathbf{d})\le0\Rightarrow-\mathbf{c}^T\mathbf{d}\le0\Rightarrow\mathbf{c}^T\mathbf{d}\ge0 A(−d)≤0⇒−cTd≤0⇒cTd≥0. 矛盾! 因此得证.
例10 (凸多面体锥的支撑函数) 考虑实空间 E = R n \mathbb{E}=\mathbb{R}^n E=Rn. 设 A ∈ R m × n \mathbf{A}\in\mathbb{R}^{m\times n} A∈Rm×n. 定义集合 S = { x ∈ R n : A x ≤ 0 } . S=\{\mathbf{x}\in\mathbb{R}^n:\mathbf{Ax\le0}\}. S={x∈Rn:Ax≤0}.因为 S S S是锥, 因此直接使用例8的结论我们可得 σ S ( y ) = δ S ∘ ( y ) . \sigma_S(\mathbf{y})=\delta_{S^{\circ}}(\mathbf{y}). σS(y)=δS∘(y).下面我们来刻画 S ∘ S^{\circ} S∘. 注意到 y ∈ S ∘ \mathbf{y}\in S^{\circ} y∈S∘当且仅当 ⟨ y , x ⟩ ≤ 0 , ∀ x : A x ≤ 0 . \langle\mathbf{y},\mathbf{x}\rangle\le0,\quad\forall\mathbf{x}:\mathbf{Ax\le0}. ⟨y,x⟩≤0,∀x:Ax≤0.由Farkas引理, 上式等价于 ∃ λ ∈ R + m : A T λ = y . \exists\lambda\in\mathbb{R}^m_+:\mathbf{A}^T\lambda=\mathbf{y}. ∃λ∈R+m:ATλ=y.因此, S ∘ = { A T λ : λ ∈ R + m } , S^{\circ}=\{\mathbf{A}^T\lambda:\lambda\in\mathbb{R}_+^m\}, S∘={ATλ:λ∈R+m}, σ S ( y ) = δ { A T λ : λ ∈ R + m } ( y ) . \boxed{\sigma_S(\mathbf{y})=\delta_{\left\{\mathbf{A}^T\lambda:\lambda\in\mathbb{R}^m_+\right\}}(\mathbf{y}).} σS(y)=δ{ATλ:λ∈R+m}(y).
例11 (仿射集的支撑函数) 考虑实空间 E = R n \mathbb{E}=\mathbb{R}^n E=Rn. 设 B ∈ R m × n \mathbf{B}\in\mathbb{R}^{m\times n} B∈Rm×n, b ∈ R m \mathbf{b}\in\mathbb{R}^m b∈Rm. 定义仿射集 C = { x ∈ R n : B x = b } . C=\{\mathbf{x}\in\mathbb{R}^n:\mathbf{Bx=b}\}. C={x∈Rn:Bx=b}.我们假设 C C C是非空的, 即 ∃ x 0 ∈ R n : B x 0 = b \exists\mathbf{x}_0\in\mathbb{R}^n:\mathbf{Bx}_0=\mathbf{b} ∃x0∈Rn:Bx0=b. 按定义, C C C的支撑函数为 σ C ( y ) = max x { ⟨ y , x ⟩ : B x = b } . \sigma_C(\mathbf{y})=\max_{\mathbf{x}}\{\langle\mathbf{y},\mathbf{x}\rangle:\mathbf{Bx=b}\}. σC(y)=xmax{⟨y,x⟩:Bx=b}.作平移 x = z + x 0 \mathbf{x}=\mathbf{z+x}_0 x=z+x0. 于是上式可重新写作 σ C ( y ) = max z { ⟨ y , z ⟩ + ⟨ y , x 0 ⟩ : B z = 0 } = ⟨ y , x 0 ⟩ + max z { ⟨ y , z ⟩ : B z = 0 } = ⟨ y , x 0 ⟩ + σ C ~ ( y ) , \begin{aligned}\sigma_C(\mathbf{y})&=\max_{\mathbf{z}}\{\langle\mathbf{y},\mathbf{z}\rangle+\langle\mathbf{y},\mathbf{x}_0\rangle:\mathbf{Bz=0}\}\\&=\langle\mathbf{y},\mathbf{x}_0\rangle+\max_{\mathbf{z}}\{\langle\mathbf{y},\mathbf{z}\rangle:\mathbf{Bz=0}\}\\&=\langle\mathbf{y},\mathbf{x}_0\rangle+\sigma_{\tilde C}(\mathbf{y}),\end{aligned} σC(y)=zmax{⟨y,z⟩+⟨y,x0⟩:Bz=0}=⟨y,x0⟩+zmax{⟨y,z⟩:Bz=0}=⟨y,x0⟩+σC~(y),其中 C ~ = { x ∈ R n : B x = 0 } \tilde C=\{\mathbf{x}\in\mathbb{R}^n:\mathbf{Bx=0}\} C~={x∈Rn:Bx=0}. 而集合 C ~ \tilde C C~可以写作凸多面体锥的形式: C ~ = { x ∈ R n : A x ≤ 0 } , \tilde C=\{\mathbf{x}\in\mathbb{R}^n:\mathbf{Ax\le0}\}, C~={x∈Rn:Ax≤0},这里 A = ( B − B ) \mathbf{A}=\begin{pmatrix}\mathbf{B}\\-\mathbf{B}\end{pmatrix} A=(B−B). 由例10我们知道, σ C ~ = δ C ~ ∘ , \sigma_{\tilde C}=\delta_{\tilde C^{\circ}}, σC~=δC~∘,这里 C ~ ∘ \tilde C^{\circ} C~∘是 C ~ \tilde C C~的极锥, C ~ ∘ = { B T λ 1 − B T λ 2 : λ 1 , λ 2 ∈ R + m } = R a n g e ( B T ) . \tilde C^{\circ}=\{\mathbf{B}^T\lambda_1-\mathbf{B}^T\lambda_2:\lambda_1,\lambda_2\in\mathbb{R}^m_+\}=\mathrm{Range}(\mathbf{B}^T). C~∘={BTλ1−BTλ2:λ1,λ2∈R+m}=Range(BT).最终, 我们得到 σ C ( y ) = ⟨ y , x 0 ⟩ + δ R a n g e ( B T ) ( y ) . \boxed{\sigma_C(\mathbf{y})=\langle\mathbf{y},\mathbf{x}_0\rangle+\delta_{\mathrm{Range}(\mathbf{B}^T)}(\mathbf{y}).} σC(y)=⟨y,x0⟩+δRange(BT)(y).
4.3 单位球的支撑函数
例12 (单位球的支撑函数) 考虑单位球 B ∥ ⋅ ∥ [ 0 , 1 ] = { x ∈ E : ∥ x ∥ ≤ 1 } . B_{\Vert\cdot\Vert}[\mathbf{0},1]=\{\mathbf{x}\in\mathbb{E}:\Vert\mathbf{x}\Vert\le1\}. B∥⋅∥[0,1]={x∈E:∥x∥≤1}.由对偶范数的定义, 我们有对 ∀ y ∈ E ∗ \forall\mathbf{y}\in\mathbb{E}^* ∀y∈E∗, σ B ∥ ⋅ ∥ [ 0 , 1 ] ( y ) = max ∥ x ∥ ≤ 1 ⟨ y , x ⟩ = ∥ y ∥ ∗ . \boxed{\sigma_{B_{\Vert\cdot\Vert}[\mathbf{0},1]}(\mathbf{y})=\max_{\Vert\mathbf{x}\Vert\le1}\langle\mathbf{y},\mathbf{x}\rangle=\Vert\mathbf{y}\Vert_*.} σB∥⋅∥[0,1](y)=∥x∥≤1max⟨y,x⟩=∥y∥∗.对于 E = R n \mathbb{E}=\mathbb{R}^n E=Rn的特殊情形, 我们有 σ B ∥ ⋅ ∥ p [ 0 , 1 ] ( y ) = ∥ y ∥ q , ( 1 ≤ p ≤ ∞ , 1 p + 1 q = 1 ) ; σ B ∥ ⋅ ∥ Q [ 0 , 1 ] = ∥ y ∥ Q − 1 , ( Q ∈ S + + n ) . \boxed{\sigma_{B_{\Vert\cdot\Vert_p}[\mathbf{0},1]}(\mathbf{y})=\Vert\mathbf{y}\Vert_q,\quad\left(1\le p\le\infty,\frac{1}{p}+\frac{1}{q}=1\right);}\\\boxed{\sigma_{B_{\Vert\cdot\Vert_{\mathbf{Q}}}[\mathbf{0},1]}=\Vert\mathbf{y}\Vert_{\mathbf{Q}^{-1}},\quad\left(\mathbf{Q}\in\mathbb{S}^n_{++}\right).} σB∥⋅∥p[0,1](y)=∥y∥q,(1≤p≤∞,p1+q1=1);σB∥⋅∥Q[0,1]=∥y∥Q−1,(Q∈S++n).
4.4 闭凸函数不连续的例子
下一个例子也说明了闭凸函数不必连续.
例13 考虑 R 2 \mathbb{R}^2 R2中的集合 C = { ( x 1 , x 2 ) T : x 1 + x 2 2 2 ≤ 0 } . C=\left\{(x_1,x_2)^T:x_1+\frac{x_2^2}{2}\le0\right\}. C={(x1,x2)T:x1+2x22≤0}.于是 C C C的支撑函数为 σ C ( y ) = max x 1 , x 2 { y 1 x 1 + y 2 x 2 : x 1 + x 2 2 2 ≤ 0 } . \sigma_C(\mathbf{y})=\max_{x_1,x_2}\left\{y_1x_1+y_2x_2:x_1+\frac{x_2^2}{2}\le0\right\}. σC(y)=x1,x2max{y1x1+y2x2:x1+2x22≤0}.显然 σ C ( 0 ) = 0 \sigma_C(\mathbf{0})=0 σC(0)=0. 因此令 y ≠ 0 \mathbf{y}\ne\mathbf{0} y=0. 此时, 已知上述极大化问题的最优点必定取在 C C C的边界点. 事实上若取在了 C C C的内部, 则目标函数的梯度 y \mathbf{y} y必定是 0 \mathbf{0} 0. 这与前提相悖. 因此 σ C ( y ) = max x 1 , x 2 { y 1 x 1 + y 2 x 2 : x 1 + x 2 2 2 = 0 } = max x 2 { − y 1 2 x 2 2 + y 2 x 2 } . \sigma_C(\mathbf{y})=\max_{x_1,x_2}\left\{y_1x_1+y_2x_2:x_1+\frac{x_2^2}{2}=0\right\}=\max_{x_2}\left\{-\frac{y_1}{2}x_2^2+y_2x_2\right\}. σC(y)=x1,x2max{y1x1+y2x2:x1+2x22=0}=x2max{−2y1x22+y2x2}.当 y 1 < 0 y_1<0 y1<0或 y 1 = 0 , y 2 ≠ 0 y_1=0,y_2\ne0 y1=0,y2=0, 最大值都是 ∞ \infty ∞; 当 y 1 > 0 y_1>0 y1>0, 则最大值在 x 2 = y 2 y 1 x_2=\frac{y_2}{y_1} x2=y1y2取到, 对应的最大值为 y 2 2 2 y 1 \frac{y_2^2}{2y_1} 2y1y22. 因此此支撑函数为 σ C ( y ) = { y 1 2 2 y 1 , y 1 > 0 , 0 , y 1 = y 2 = 0 , ∞ , 其 它 . \boxed{\sigma_C(\mathbf{y})=\left\{\begin{array}{ll}\frac{y_1^2}{2y_1}, & y_1>0,\\0, & y_1=y_2=0,\\\infty, & 其它.\end{array}\right.} σC(y)=⎩⎪⎨⎪⎧2y1y12,0,∞,y1>0,y1=y2=0,其它.
由引理1,
σ
C
\sigma_C
σC必定是闭凸函数. 但它在
(
y
1
,
y
2
)
=
(
0
,
0
)
(y_1,y_2)=(0,0)
(y1,y2)=(0,0)点处不连续. 事实上, 任取
α
>
0
\alpha>0
α>0, 取路径
y
1
(
t
)
=
t
2
2
α
,
y
2
(
t
)
=
t
(
t
>
0
)
y_1(t)=\frac{t^2}{2\alpha},y_2(t)=t(t>0)
y1(t)=2αt2,y2(t)=t(t>0), 我们就有
σ
C
(
y
1
(
t
)
,
y
2
(
t
)
)
=
α
,
\sigma_C(y_1(t),y_2(t))=\alpha,
σC(y1(t),y2(t))=α,因此
σ
C
(
y
1
(
t
)
,
y
2
(
t
)
)
→
α
,
t
→
0
+
\sigma_C(y_1(t),y_2(t))\to\alpha,t\to0^+
σC(y1(t),y2(t))→α,t→0+. 这与
σ
C
(
0
,
0
)
=
0
\sigma_C(0,0)=0
σC(0,0)=0矛盾. 下图展示了
σ
C
\sigma_C
σC的图像. 其中的曲线表示的是函数的等高线.
4.5 单位单纯形的支撑函数
下面我们导出单位单纯形的支撑函数. 为此我们先做一些铺垫. 集合的支撑函数的一个重要性质是, 只要这些集合是闭凸的, 则它们的支撑函数是唯一确定的. 证明这个结论需要用到如下的严格分离定理 (strict separation theorem).
定理11 (严格分离定理) 设 C ⊂ E C\subset\mathbb{E} C⊂E为非空闭凸集, y ∉ C \mathbf{y}\notin C y∈/C. 则存在 p ∈ E ∗ ∖ { 0 } \mathbf{p}\in\mathbb{E}^*\setminus\{\mathbf{0}\} p∈E∗∖{0}, α ∈ R \alpha\in\mathbb{R} α∈R使得 ⟨ p , y ⟩ > α \langle\mathbf{p,y}\rangle>\alpha ⟨p,y⟩>α以及 ⟨ p , x ⟩ ≤ α , ∀ x ∈ C . \langle\mathbf{p,x}\rangle\le\alpha,\quad\forall\mathbf{x}\in C. ⟨p,x⟩≤α,∀x∈C.
此定理的证明可以参看泛函分析中更加一般的凸集分离定理的证明. 在此省略.
引理4 设 A , B ⊂ E A,B\subset\mathbb{E} A,B⊂E为非空闭凸集. 则 A = B A=B A=B当且仅当 σ A = σ B \sigma_A=\sigma_B σA=σB.
证明: 必要性是显然的. 下面证充分性. 设 σ A = σ B \sigma_A=\sigma_B σA=σB. 若 A ≠ B A\ne B A=B, 则不失一般性, 我们假设 ∃ y ∈ A : y ∉ B \exists\mathbf{y}\in A:\mathbf{y}\notin B ∃y∈A:y∈/B. 由于 y ∉ B \mathbf{y}\notin B y∈/B且 B B B为非空闭凸集, 我们由严格分离定理就推出存在分离 y \mathbf{y} y和 B B B的超平面, 即 ∃ p ∈ E ∗ ∖ { 0 } , α > 0 \exists\mathbf{p}\in\mathbb{E}^*\setminus\{0\},\alpha>0 ∃p∈E∗∖{0},α>0, 使得 ⟨ p , x ⟩ ≤ α < ⟨ p , y ⟩ , ∀ x ∈ B . \langle\mathbf{p},\mathbf{x}\rangle\le\alpha<\langle\mathbf{p,y}\rangle,\quad\forall\mathbf{x}\in B. ⟨p,x⟩≤α<⟨p,y⟩,∀x∈B.左端对 x ∈ B \mathbf{x}\in B x∈B取上确界, 我们推出 σ B ( p ) ≤ α < ⟨ p , y ⟩ ≤ σ A ( p ) . \sigma_B(\mathbf{p})\le\alpha<\langle\mathbf{p,y}\rangle\le\sigma_A(\mathbf{p}). σB(p)≤α<⟨p,y⟩≤σA(p).这与 σ A = σ B \sigma_A=\sigma_B σA=σB是矛盾的. 得证.
在集合未必闭凸时, 我们有支撑函数在闭包 (closure) 和凸包下的不变性.
引理5 设
A
⊂
E
A\subset\mathbb{E}
A⊂E非空. 则
(i)
σ
A
=
σ
c
l
(
A
)
\sigma_A=\sigma_{\mathrm{cl}(A)}
σA=σcl(A);
(ii)
σ
A
=
σ
c
o
n
v
(
A
)
\sigma_A=\sigma_{\mathrm{conv}(A)}
σA=σconv(A).
证明: (i) 由于
A
⊂
c
l
(
A
)
A\subset\mathrm{cl}(A)
A⊂cl(A), 因此显然有
σ
A
(
y
)
≤
σ
c
l
(
A
)
(
y
)
,
∀
y
∈
E
∗
.
\sigma_A(\mathbf{y})\le\sigma_{\mathrm{cl}(A)}(\mathbf{y}),\quad\forall\mathbf{y}\in\mathbb{E}^*.
σA(y)≤σcl(A)(y),∀y∈E∗.下面我们证明反向的情形. 令
y
∈
E
∗
\mathbf{y}\in\mathbb{E}^*
y∈E∗. 由支撑函数的定义, 存在序列
{
x
k
}
k
≥
1
⊂
c
l
(
A
)
\{\mathbf{x}^k\}_{k\ge1}\subset\mathrm{cl}(A)
{xk}k≥1⊂cl(A)使得
⟨
y
,
x
k
⟩
→
σ
c
l
(
A
)
(
y
)
.
\langle\mathbf{y},\mathbf{x}^k\rangle\to\sigma_{\mathrm{cl}(A)}(\mathbf{y}).
⟨y,xk⟩→σcl(A)(y).由集合闭包的定义, 于是我们有序列
{
z
k
}
k
≥
1
⊂
A
:
∥
z
k
−
x
k
∥
≤
1
k
,
∀
k
\{\mathbf{z}^k\}_{k\ge1}\subset A:\Vert\mathbf{z}^k-\mathbf{x}^k\Vert\le\frac{1}{k},\forall k
{zk}k≥1⊂A:∥zk−xk∥≤k1,∀k, 因此
z
k
−
x
k
→
0.
\mathbf{z}^k-\mathbf{x}^k\to0.
zk−xk→0.由于
z
k
∈
A
\mathbf{z}^k\in A
zk∈A, 于是就有
σ
A
(
y
)
≥
⟨
y
,
z
k
⟩
=
⟨
y
,
x
k
⟩
+
⟨
y
,
z
k
−
x
k
⟩
.
\sigma_A(\mathbf{y})\ge\langle\mathbf{y,z}^k\rangle=\langle\mathbf{y,x}^k\rangle+\langle\mathbf{y,z}^k-\mathbf{x}^k\rangle.
σA(y)≥⟨y,zk⟩=⟨y,xk⟩+⟨y,zk−xk⟩.对
k
k
k取极限, 于是我们就有反向的不等式
σ
A
(
y
)
≥
σ
c
l
(
A
)
(
y
)
+
0
=
σ
c
l
(
A
)
(
y
)
.
\sigma_A(\mathbf{y})\ge\sigma_{\mathrm{cl}(A)}(\mathbf{y})+0=\sigma_{\mathrm{cl}(A)}(\mathbf{y}).
σA(y)≥σcl(A)(y)+0=σcl(A)(y).
(ii) 因为
A
⊂
c
o
n
v
(
A
)
A\subset\mathrm{conv}(A)
A⊂conv(A), 因此显然有
σ
A
(
y
)
≤
σ
c
o
n
v
(
A
)
(
y
)
,
∀
y
∈
E
∗
.
\sigma_A(\mathbf{y})\le\sigma_{\mathrm{conv}(A)}(\mathbf{y}),\quad\forall\mathbf{y}\in\mathbb{E}^*.
σA(y)≤σconv(A)(y),∀y∈E∗.下面我们证明反向不等式. 令
y
∈
E
∗
\mathbf{y}\in\mathbb{E}^*
y∈E∗. 于是由支撑函数的定义, 存在序列
{
x
k
}
k
≥
1
⊂
c
o
n
v
(
A
)
\{\mathbf{x}^k\}_{k\ge1}\subset\mathrm{conv}(A)
{xk}k≥1⊂conv(A)使得
⟨
y
,
x
k
⟩
→
σ
c
o
n
v
(
A
)
(
y
)
.
\langle\mathbf{y},\mathbf{x}^k\rangle\to\sigma_{\mathrm{conv}(A)}(\mathbf{y}).
⟨y,xk⟩→σconv(A)(y).再由集合凸包的定义, 于是对
∀
k
\forall k
∀k,
∃
z
1
k
,
z
2
k
,
…
,
z
n
k
k
∈
A
,
λ
k
∈
Δ
n
k
\exists\mathbf{z}_1^k,\mathbf{z}_2^k,\ldots,\mathbf{z}_{n_k}^k\in A,\lambda^k\in\Delta_{n_k}
∃z1k,z2k,…,znkk∈A,λk∈Δnk使得
x
k
=
∑
i
=
1
n
k
λ
1
k
z
i
k
.
\mathbf{x}^k=\sum_{i=1}^{n_k}\lambda_1^k\mathbf{z}_i^k.
xk=i=1∑nkλ1kzik.于是
⟨
y
,
x
k
⟩
=
⟨
y
,
∑
i
=
1
n
k
λ
i
k
z
i
k
⟩
=
∑
i
=
1
n
k
λ
i
k
⟨
y
,
z
i
k
⟩
≤
∑
i
=
1
n
k
λ
i
k
σ
A
(
y
)
=
σ
A
(
y
)
,
\langle\mathbf{y,x}^k\rangle=\left\langle\mathbf{y},\sum_{i=1}^{n_k}\lambda_i^k\mathbf{z}_i^k\right\rangle=\sum_{i=1}^{n_k}\lambda_i^k\langle\mathbf{y,z}_i^k\rangle\le\sum_{i=1}^{n_k}\lambda_i^k\sigma_A(\mathbf{y})=\sigma_A(\mathbf{y}),
⟨y,xk⟩=⟨y,i=1∑nkλikzik⟩=i=1∑nkλik⟨y,zik⟩≤i=1∑nkλikσA(y)=σA(y),再对
k
k
k取极限, 就得到反向不等式. 证毕.
例14 (单位单纯形的支撑函数) 考虑实空间 E n \mathbb{E}^n En和其中的单位单纯形 Δ n = { x ∈ R n : e T x = 1 , x ≥ 0 } . \Delta_n=\{\mathbf{x}\in\mathbb{R}^n:\mathbf{e}^T\mathbf{x}=1,\mathbf{x}\ge\mathbf{0}\}. Δn={x∈Rn:eTx=1,x≥0}.注意到单位单纯形可以写作 R n \mathbb{R}^n Rn中标准基的凸包, 即 Δ n = c o n v { e 1 , e 2 , … , e n } , \Delta_n=\mathrm{conv}\{\mathbf{e}_1,\mathbf{e}_2,\ldots,\mathbf{e}_n\}, Δn=conv{e1,e2,…,en},于是由引理5的(ii)即得 σ Δ n ( y ) = σ { e 1 , … , e m } ( y ) = max { ⟨ e 1 , y ⟩ , ⟨ e 2 , y ⟩ , … , ⟨ e n , y ⟩ } . \sigma_{\Delta_n}(\mathbf{y})=\sigma_{\{\mathbf{e}_1,\ldots,\mathbf{e}_m\}}(\mathbf{y})=\max\{\langle\mathbf{e}_1,\mathbf{y}\rangle,\langle\mathbf{e}_2,\mathbf{y}\rangle,\ldots,\langle\mathbf{e}_n,\mathbf{y}\rangle\}. σΔn(y)=σ{e1,…,em}(y)=max{⟨e1,y⟩,⟨e2,y⟩,…,⟨en,y⟩}.若默认 R n \mathbb{R}^n Rn中内积为点积, 则 σ Δ n ( y ) = max { y 1 , y 2 , … , y n } . \boxed{\sigma_{\Delta_n}(\mathbf{y})=\max\{y_1,y_2,\ldots,y_n\}.} σΔn(y)=max{y1,y2,…,yn}.
4.6 支撑函数的总结
C C C | σ C ( y ) \sigma_C(\mathbf{y}) σC(y) | 假设条件 |
---|---|---|
{ b 1 , … , b n } \{\mathbf{b}_1,\ldots,\mathbf{b}_n\} {b1,…,bn} | max i = 1 , … , n ⟨ b i , y ⟩ \max_{i=1,\ldots,n}\langle\mathbf{b}_i,\mathbf{y}\rangle maxi=1,…,n⟨bi,y⟩ | b i ∈ E \mathbf{b}_i\in\mathbb{E} bi∈E |
K K K | δ K ∘ ( y ) \delta_{K^{\circ}}(\mathbf{y}) δK∘(y) | K K K为锥 |
R + n \mathbb{R}^n_+ R+n | δ R − n ( y ) \delta_{\mathbb{R}^n_-}(\mathbf{y}) δR−n(y) | E = R n \mathbb{E}=\mathbb{R}^n E=Rn |
Δ n \Delta_n Δn | max { y 1 , y 2 , … , y n } \max\{y_1,y_2,\ldots,y_n\} max{y1,y2,…,yn} | E = R n \mathbb{E}=\mathbb{R}^n E=Rn |
{ x ∈ R n : A x ≤ 0 } \{\mathbf{x}\in\mathbb{R}^n:\mathbf{Ax\le0}\} {x∈Rn:Ax≤0} | δ { A T λ : λ ∈ R + m } ( y ) \delta_{\{\mathbf{A}^T\lambda:\lambda\in\mathbb{R}^m_+\}}(\mathbf{y}) δ{ATλ:λ∈R+m}(y) | E = R n , A ∈ R m × n \mathbb{E}=\mathbb{R}^n,\mathbf{A}\in\mathbb{R}^{m\times n} E=Rn,A∈Rm×n |
{ x ∈ R n : B x = b } \{\mathbf{x}\in\mathbb{R}^n:\mathbf{Bx=b}\} {x∈Rn:Bx=b} | ⟨ y , x 0 ⟩ + δ R a n g e ( B T ) ( y ) \langle\mathbf{y,x}_0\rangle+\delta_{\mathrm{Range}(\mathbf{B}^T)}(\mathbf{y}) ⟨y,x0⟩+δRange(BT)(y) | E = R n , B ∈ R m × n , b ∈ R m , B x 0 = b \mathbb{E}=\mathbb{R}^n,\mathbf{B}\in\mathbb{R}^{m\times n},\mathbf{b}\in\mathbb{R}^m,\mathbf{Bx}_0=\mathbf{b} E=Rn,B∈Rm×n,b∈Rm,Bx0=b |
B ∥ ⋅ ∥ [ 0 , 1 ] B_{\Vert\cdot\Vert}[\mathbf{0},1] B∥⋅∥[0,1] | ∥ y ∥ ∗ \Vert\mathbf{y}\Vert_* ∥y∥∗ | - |
有时简记为 R ∪ { ∞ } \mathbb{R}\cup\{\infty\} R∪{∞}或 [ − ∞ , ∞ ] [-\infty,\infty] [−∞,∞]. ↩︎
注意从所谓 ℓ 0 \ell_0 ℓ0-范数的定义我们知道, ℓ 0 \ell_0 ℓ0-范数实际上不满足范数的定义: 它并不满足正齐次性的要求. 但由于这个术语被学术文献广泛使用, 因此我们也采用这种叫法. ↩︎
注意, 使用“扩展”这个词是基于上文提到的集合包含关系. ↩︎
在有限维空间情形等价于有界闭集. ↩︎
由(i)下有界, 所以必有下确界. ↩︎
此定理在数学分析中, 我们对连续函数的情形讨论过. 而上文提到, 全空间连续函数真包含于全空间闭函数, 因此此定理是数学分析中结论的推广. ↩︎
从命题1的(ii)我们知道, 凸的正常扩充实值函数是凸的实值函数的推广. ↩︎
这里按实值函数在凸集上凸性的定义理解. ↩︎
此不等式为以下Jensen不等式的特例: f ( ∑ i = 1 k λ i x i ) ≤ ∑ i = 1 k λ i f ( x i ) . f\left(\sum\limits_{i=1}^k\lambda_i\mathbf{x}_i\right)\le\sum_{i=1}^k\lambda_if(\mathbf{x}_i). f(i=1∑kλixi)≤i=1∑kλif(xi). ↩︎
可对比之前的保闭性运算. 本定理只列举部分满足要求的运算. ↩︎
在 C C C是闭集时, 对 ∀ x ∉ C \forall\mathbf{x}\notin C ∀x∈/C, 必有 d C ( x ) > 0 d_C(\mathbf{x})>0 dC(x)>0. ↩︎
g g g不取 ∞ \infty ∞是显然的. ↩︎