First Order Methods in Optimization Ch2. Extended Real-Valued Functions

第二章: 扩充实值函数

1. 扩充实值函数和闭性

  1. 扩充实值函数 (extended real-valued function) 是定义在整个 E \mathbb{E} E上, 而取值在扩充实轴 R ∪ { ∞ , − ∞ } \mathbb{R}\cup\{\infty,-\infty\} R{,}1的函数. 为此, 我们先定义扩充实轴上的运算法则: a + ∞ = ∞ + a = ∞ , ∀ a ∈ R , a − ∞ = − ∞ + a = − ∞ , ∀ a ∈ R , a ⋅ ∞ = ∞ ⋅ a = ∞ , ∀ a ∈ R + , a ⋅ ( − ∞ ) = ( − ∞ ) ⋅ a = − ∞ , ∀ a ∈ R + , a ⋅ ∞ = ∞ ⋅ a = − ∞ , ∀ a ∈ R − , a ⋅ ( − ∞ ) = ( − ∞ ) ⋅ a = ∞ , ∀ a ∈ R − , 0 ⋅ ∞ = ∞ ⋅ 0 = 0 ⋅ ( − ∞ ) = ( − ∞ ) ⋅ 0 = 0. \begin{aligned}a+\infty=\infty+a&=\infty,\quad\forall a\in\mathbb{R},\\ a-\infty=-\infty+a&=-\infty,\quad\forall a\in\mathbb{R},\\ a\cdot\infty=\infty\cdot a&=\infty,\quad\forall a\in\mathbb{R}_+,\\ a\cdot(-\infty)=(-\infty)\cdot a&=-\infty,\quad\forall a\in\mathbb{R}_+,\\ a\cdot\infty=\infty\cdot a&=-\infty,\quad\forall a\in\mathbb{R}_-,\\ a\cdot(-\infty)=(-\infty)\cdot a&=\infty,\quad\forall a\in\mathbb{R}_-,\\ 0\cdot\infty=\infty\cdot0=0\cdot(-\infty)=(-\infty)\cdot0&=0.\end{aligned} a+=+aa=+aa=aa()=()aa=aa()=()a0=0=0()=()0=,aR,=,aR,=,aR+,=,aR+,=,aR,=,aR,=0.如果我们用极限来解释以上运算法则, 我们会发现其中唯一“不自然”的是最后一条. 在数学分析中, 我们称“ 0 ⋅ ∞ 0\cdot\infty 0”为未定式. 但在讨论扩充实值函数时, 这样的规定是“适当的 (correct) ”.
    我们也规定扩充实轴上实数和无穷大之间的序关系: ∞ > a , ∀ a ∈ R ∪ { − ∞ } , − ∞ < a , ∀ a ∈ R ∪ { ∞ } . \begin{aligned}\infty&>a,\quad\forall a\in\mathbb{R}\cup\{-\infty\},\\-\infty&<a,\quad\forall a\in\mathbb{R}\cup\{\infty\}.\end{aligned} >a,aR{},<a,aR{}.对于一个扩充实值函数 f : E → R ∪ { ∞ } f:\mathbb{E}\to\mathbb{R}\cup\{\infty\} f:ER{}, 我们定义其有效域 (effective domain) d o m ( f ) \mathrm{dom}(f) dom(f) d o m ( f ) = { x ∈ E : f ( x ) < ∞ } . \mathrm{dom}(f)=\{\mathbf{x}\in\mathbb{E}:f(\mathbf{x})<\infty\}. dom(f)={xE:f(x)<}.于此, 我们称满足 { x ∈ E : f ( x ) = − ∞ } = ∅ \{x\in\mathbb{E}:f(\mathbf{x})=-\infty\}=\emptyset {xE:f(x)=}= d o m ( f ) ≠ ∅ \mathrm{dom}(f)\not=\emptyset dom(f)= f f f正常函数 (proper function).
    最简单的扩充实值函数是集合的指示函数 (indicator function).
    例1 (指示函数) 对 ∀ C ⊂ E \forall C\subset\mathbb{E} CE, C C C的指示函数定义为如下的扩充实值函数: δ C ( x ) = { 0 , x ∈ C , ∞ , x ∉ C . \delta_{C}(\mathbf{x})=\left\{\begin{array}{ll}0, & \mathbf{x}\in C,\\\infty, & \mathbf{x}\notin C.\end{array}\right. δC(x)={0,,xC,x/C.显然有 d o m ( δ C ) = C . \mathrm{dom}(\delta_{C})=C. dom(δC)=C.
    扩充实值函数 f f f上镜图 (epigraph) e p i ( f ) \mathrm{epi}(f) epi(f)定义为 e p i ( f ) = { ( x , y ) : f ( x ) ≤ y ,   x ∈ E ,   y ∈ R } ( ⊂ E × R ) . \mathrm{epi}(f)=\{(\mathbf{x},y):f(\mathbf{x})\le y,\,\mathbf{x}\in\mathbb{E},\,y\in\mathbb{R}\}(\subset\mathbb{E}\times\mathbb{R}). epi(f)={(x,y):f(x)y,xE,yR}(E×R).显然我们有 P E ( e p i ( f ) ) = d o m ( f ) , P_{\mathbb{E}}(\mathrm{epi}(f))=\mathrm{dom}(f), PE(epi(f))=dom(f),这里 P P P为投影映射.

  2. 闭函数 (closed function).
    定义1 (闭函数) 我们称扩充实值函数 f f f是闭函数, 若它的上镜图 e p i ( f ) \mathrm{epi}(f) epi(f)是闭集.
    由定义直接可得, 集合 C C C的指示函数是闭函数当且仅当 C C C是闭集. 这是因为 e p i ( δ C ) = C × R + \mathrm{epi}(\delta_C)=C\times\mathbb{R}_+ epi(δC)=C×R+. 但这点对一般的闭函数不一定成立. 特别地, 存在闭函数, 使得其有效域不是个闭集.
    例2 考虑扩充实值函数 f f f: f ( x ) = { 1 x , x > 0 , ∞ , 其 他 . f(x)=\left\{\begin{array}{ll}\frac{1}{x}, & x>0,\\\infty,&其他.\end{array}\right. f(x)={x1,,x>0,.这样的 f f f, 其有效域为开区间 ( 0 , ∞ ) (0,\infty) (0,), 而上镜图 e p i ( f ) = { ( x , y ) : x y ≥ 1 , x > 0 } \mathrm{epi}(f)=\{(x,y):xy\ge1,x>0\} epi(f)={(x,y):xy1,x>0}则是个闭集. f f f的图像如下.
    在这里插入图片描述
    我们下面要介绍的下半连续性 (lower semicontinuity) 是与函数闭性等价的性质.
    定义2 (下半连续性) 我们称扩充实值函数 f f f x ∈ E \mathbf{x}\in\mathbb{E} xE处下半连续, 若 f ( x ) ≤ lim inf ⁡ n → ∞ f ( x n ) f(\mathbf{x})\le\liminf_{n\to\infty}f(\mathbf{x}_n) f(x)nliminff(xn) ∀ { x n } n ≥ 1 ⊂ E : x n → x \forall \{\mathbf{x}_n\}_{n\ge1}\subset\mathbb{E}:\mathbf{x}_n\to\mathbf{x} {xn}n1E:xnx都是成立; 称 f f f E \mathbb{E} E上的下半连续函数, 若它在 E \mathbb{E} E上每个点处均下半连续.
    为证明下半连续性和闭性的等价性, 我们引入水平集 (level set) 的概念. 对 ∀ α ∈ R \forall\alpha\in\mathbb{R} αR, 扩充实值函数 f f f α \alpha α-水平集定义为 L e v ( f , α ) = { x ∈ E : f ( x ) ≤ α } . \mathrm{Lev}(f,\alpha)=\{\mathbf{x}\in\mathbb{E}:f(\mathbf{x})\le\alpha\}. Lev(f,α)={xE:f(x)α}.下面的定理1表明, 闭性、下半连续性和任意水平集是闭集是等价的.
    定理1 (闭性、下半连续性和水平集是闭集的等价性) 令 f : E → [ − ∞ , ∞ ] f:\mathbb{E}\to[-\infty,\infty] f:E[,]. 则下面三件事是等价的:
    (i) f f f是下半连续函数;
    (ii) f f f是闭函数;
    (iii) 对 ∀ α ∈ R \forall\alpha\in\mathbb{R} αR, 水平集 L e v ( f , α ) \mathrm{Lev}(f,\alpha) Lev(f,α)是闭集.
    证明: (i) ⇒ \Rightarrow (ii) 设 f f f下半连续. 我们证明 f f f的上镜图 e p i ( f ) \mathrm{epi}(f) epi(f)是闭集. 为此, 任取 { ( x n , y n ) } n ≥ 1 ⊂ e p i ( f ) : ( x n , y n ) → ( x ∗ , y ∗ ) \{(\mathbf{x}_n,y_n)\}_{n\ge1}\subset\mathrm{epi}(f):(\mathbf{x}_n,y_n)\to(\mathbf{x}^*,y^*) {(xn,yn)}n1epi(f):(xn,yn)(x,y). 于是对 ∀ n ≥ 1 \forall n\ge1 n1, f ( x n ) ≤ y n f(\mathbf{x}_n)\le y_n f(xn)yn. 因此, 由 f f f x ∗ \mathbf{x}^* x处的下半连续性, 我们有 f ( x ∗ ) ≤ lim inf ⁡ n → ∞ f ( x n ) ≤ lim inf ⁡ n → ∞ y n = y ∗ . f(\mathbf{x}^*)\le\liminf_{n\to\infty}f(\mathbf{x}_n)\le\liminf_{n\to\infty}y_n=y^*. f(x)nliminff(xn)nliminfyn=y.这就表明 ( x ∗ , y ∗ ) ∈ e p i ( f ) (\mathbf{x}^*,y^*)\in\mathrm{epi}(f) (x,y)epi(f), 因此 f f f是闭函数.
    (ii) ⇒ \Rightarrow (iii) 设 f f f是闭函数. 对 ∀ α ∈ R \forall\alpha\in\mathbb{R} αR, 我们要证 L e v ( f , α ) \mathrm{Lev}(f,\alpha) Lev(f,α)是闭集. 若 L e v ( f , α ) = ∅ \mathrm{Lev}(f,\alpha)=\emptyset Lev(f,α)=, 则得证. 不然, 取序列 { x n } n ≥ 1 ⊂ L e v ( f , α ) : x n → x ˉ \{\mathbf{x}_n\}_{n\ge1}\subset\mathrm{Lev}(f,\alpha):\mathbf{x}_n\to\bar\mathbf{x} {xn}n1Lev(f,α):xnxˉ. 显然对 ∀ n \forall n n, ( x n , α ) ∈ e p i ( f ) (\mathbf{x}_n,\alpha)\in\mathrm{epi}(f) (xn,α)epi(f) ( x n , α ) → ( x ˉ , α ) (\mathbf{x}_n,\alpha)\to(\bar\mathbf{x},\alpha) (xn,α)(xˉ,α). 由上镜图的闭性, 我们有 ( x ˉ , α ) ∈ e p i ( f ) ⇒ x ˉ ∈ L e v ( f , α ) (\bar\mathbf{x},\alpha)\in\mathrm{epi}(f)\Rightarrow\bar\mathbf{x}\in\mathrm{Lev}(f,\alpha) (xˉ,α)epi(f)xˉLev(f,α).
    (iii) ⇒ \Rightarrow (i) 设 f f f的所有水平集是闭集. 要证 f f f下半连续. 反证, 若不然, f f f不是下半连续的, 则 ∃ x ∗ ∈ E , { x n } n ≥ 1 ⊂ E : x n → x ∗ , lim inf ⁡ n → ∞ f ( x n ) < f ( x ∗ ) \exists\mathbf{x}^*\in\mathbb{E},\{\mathbf{x}_n\}_{n\ge1}\subset\mathbb{E}:\mathbf{x}_n\to\mathbf{x}^*,\liminf_{n\to\infty}f(\mathbf{x}_n)<f(\mathbf{x}^*) xE,{xn}n1E:xnx,nliminff(xn)<f(x). 取 α : lim inf ⁡ n → ∞ f ( x ) < α < f ( x ∗ ) \alpha:\liminf_{n\to\infty}f(\mathbf{x})<\alpha<f(\mathbf{x}^*) α:nliminff(x)<α<f(x). 则存在子列 { x n k } k ≥ 1 : f ( x n k ) ≤ α , ∀ k ≥ 1 \{\mathbf{x}_{n_k}\}_{k\ge1}:f(\mathbf{x}_{n_k})\le\alpha,\forall k\ge1 {xnk}k1:f(xnk)α,k1. 由水平集 L e v ( f , α ) \mathrm{Lev}(f,\alpha) Lev(f,α)的闭性以及 x n k → x ∗ \mathbf{x}_{n_k}\to\mathbf{x}^* xnkx, 我们知道 f ( x ∗ ) ≤ α f(\mathbf{x}^*)\le\alpha f(x)α. 这与 α < f ( x ∗ ) \alpha<f(\mathbf{x}^*) α<f(x)矛盾! 于是 f f f下半连续. 证毕.
    下面我们介绍保函数闭性的运算, 包括自变量的仿射变换、非负数乘组合以及多个函数的极大化.
    定理2 (保闭性运算)
    (i) 令 A : E → V \mathcal{A}:\mathbb{E}\to\mathbb{V} A:EV为一线性映射, b ∈ E \mathbf{b}\in\mathbb{E} bE, f : V → [ − ∞ , ∞ ] f:\mathbb{V}\to[-\infty,\infty] f:V[,]为扩充实值闭函数. 则函数 g g g: g ( x ) = f ( A ( x ) + b ) g(\mathbf{x})=f(\mathcal{A}(\mathbf{x})+\mathbf{b}) g(x)=f(A(x)+b)是闭函数;
    (ii) 令 f 1 , f 2 , … , f m : E → ( − ∞ , ∞ ] f_1,f_2,\ldots,f_m:\mathbb{E}\to(-\infty,\infty] f1,f2,,fm:E(,]为扩充实值闭函数, α 1 , α 2 , … , α m ∈ R + \alpha_1,\alpha_2,\ldots,\alpha_m\in\mathbb{R}_+ α1,α2,,αmR+. 则函数 f = ∑ i = 1 m α i f i f=\sum_{i=1}^m\alpha_if_i f=i=1mαifi是闭函数;
    (iii) 令 f i : E → ( − ∞ , ∞ ] , i ∈ I f_i:\mathbb{E}\to(-\infty,\infty],i\in I fi:E(,],iI为扩充实值闭函数, I I I为给定的指标集 (可以是无限集). 则函数 f ( x ) = max ⁡ i ∈ I f i ( x ) f(\mathbf{x})=\max_{i\in I}f_i(\mathbf{x}) f(x)=iImaxfi(x)是闭函数.
    证明: (i) 为证明 g g g是闭的, 取序列 { ( x n , y n ) } n ≥ 1 ⊂ e p i ( g ) : ( x n , y n ) → ( x ∗ , y ∗ ) , x ∗ ∈ E , y ∗ ∈ R \{(\mathbf{x}_n,y_n)\}_{n\ge1}\subset\mathrm{epi}(g):(\mathbf{x}_n,y_n)\to(\mathbf{x}^*,y^*),\mathbf{x}^*\in\mathbb{E},y^*\in\mathbb{R} {(xn,yn)}n1epi(g):(xn,yn)(x,y),xE,yR. 而 { ( x n , y n ) } n ≥ 1 ⊂ e p i ( g ) \{(\mathbf{x}_n,y_n)\}_{n\ge1}\subset\mathrm{epi}(g) {(xn,yn)}n1epi(g)可以等价地写作 f ( A ( x n ) + b ) ≤ y n , ∀ n ≥ 1. f(\mathcal{A}(\mathbf{x}_n)+\mathbf{b})\le y_n,\quad\forall n\ge1. f(A(xn)+b)yn,n1.因此 ( A ( x n ) + b , y n ) ∈ e p i ( f ) (\mathcal{A}(\mathbf{x}_n)+\mathbf{b},y_n)\in\mathrm{epi}(f) (A(xn)+b,yn)epi(f). 由于 f f f是闭的且 A ( x n ) + b → A ( x ∗ ) + b , y n → y ∗ \mathcal{A}(\mathbf{x}_n)+\mathbf{b}\to\mathcal{A}(\mathbf{x}^*)+\mathbf{b},y_n\to y^* A(xn)+bA(x)+b,yny (线性映射的连续性), 我们知道 ( A ( x ∗ ) + b , y ∗ ) ∈ e p i ( f ) ⇒ f ( A ( x ∗ ) + b ) ≤ y ∗ ⇒ ( x ∗ , y ∗ ) ∈ e p i ( g ) . (\mathcal{A}(\mathbf{x}^*)+\mathbf{b},y^*)\in\mathrm{epi}(f)\Rightarrow f(\mathcal{A}(\mathbf{x}^*)+\mathbf{b})\le y^*\Rightarrow (\mathbf{x}^*,y^*)\in\mathrm{epi}(g). (A(x)+b,y)epi(f)f(A(x)+b)y(x,y)epi(g).这就证明 g g g是闭的.
    (ii) 我们证明 f f f是下半连续的, 从而由定理1可得 f f f的闭性. 令 { x n } n ≥ 1 : x n → x ∗ \{\mathbf{x}_n\}_{n\ge1}:\mathbf{x}_n\to\mathbf{x^*} {xn}n1:xnx. 由 f i f_i fi的下半连续性, f i ( x ∗ ) ≤ lim inf ⁡ n → ∞ f i ( x n ) . f_i(\mathbf{x}^*)\le\liminf_{n\to\infty}f_i(\mathbf{x}_n). fi(x)nliminffi(xn).上式左右同乘 α i \alpha_i αi并对下标 i i i累加可得 ( ∑ i = 1 m α i f i ) ( x ∗ ) ≤ ∑ i = 1 m lim inf ⁡ n → ∞ α i f i ( x n ) ≤ lim inf ⁡ n → ∞ ( ∑ i = 1 m α i f i ) ( x n ) . \left(\sum_{i=1}^m\alpha_if_i\right)(\mathbf x^*)\le\sum_{i=1}^m\liminf_{n\to\infty}\alpha_if_i(\mathbf{x}_n)\le\liminf_{n\to\infty}\left(\sum_{i=1}^m\alpha_if_i\right)(\mathbf{x}_n). (i=1mαifi)(x)i=1mnliminfαifi(xn)nliminf(i=1mαifi)(xn).由于上式对任意收敛于 x ∗ \mathbf{x}^* x的序列都是成立的, 因此我们就证明了 f f f的下半连续性.
    (iii) 由于 f i f_i fi是闭的, 于是 e p i ( f ) \mathrm{epi}(f) epi(f)是闭集. 由于任意多个闭集的交仍是闭集, 于是 e p i ( f ) = ⋂ i ∈ I e p i ( f i ) \mathrm{epi}(f)=\bigcap_{i\in I}\mathrm{epi}(f_i) epi(f)=iIepi(fi)是闭集, 从而 f f f是闭的. 证毕.

2. 闭性与连续性

本节我们将说明函数闭性与连续性之间的关系: 一个扩充实值函数若在其有效域上是连续的且这个有效域是闭的, 则这个函数是闭的; 反之, 一个扩充实值函数是闭的且其有效域是闭的, 并不能推出这个函数在其有效域上连续. 前者可见下面的定理3, 后者我们将以反例说明.

定理3 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]在其有效域上是连续的且 d o m ( f ) \mathrm{dom}(f) dom(f)是闭集. 则 f f f是闭函数.
证明: 为证明 e p i ( f ) \mathrm{epi}(f) epi(f)是闭集, 取序列 { ( x n , y n ) } n ≥ 1 ⊂ e p i ( f ) : ( x n , y n ) → ( x ∗ , y ∗ ) , x ∗ ∈ E , y ∗ ∈ R \{(\mathbf{x}_n,y_n)\}_{n\ge1}\subset\mathrm{epi}(f):(\mathbf{x}_n,y_n)\to(\mathbf{x}^*,y^*), \mathbf{x}^*\in\mathbb{E},y^*\in\mathbb{R} {(xn,yn)}n1epi(f):(xn,yn)(x,y),xE,yR. 由于 { x n } n ≥ 1 ⊂ d o m ( f ) \{\mathbf{x}_n\}_{n\ge1}\subset\mathrm{dom}(f) {xn}n1dom(f), x n → x ∗ \mathbf{x}_n\to\mathbf{x}^* xnx d o m ( f ) \mathrm{dom}(f) dom(f)是闭集, 因此 x ∗ ∈ d o m ( f ) \mathbf{x}^*\in\mathrm{dom}(f) xdom(f). 由上镜图的定义, 我们有对 ∀ n ≥ 1 \forall n\ge1 n1, f ( x n ) ≤ y n . f(\mathbf{x}_n)\le y_n. f(xn)yn. f f f d o m ( f ) \mathrm{dom}(f) dom(f)上的连续性, 特别地, 在 x ∗ \mathbf{x}^* x处的连续性, 在上式两边对 n n n取极限后我们得到 f ( x ∗ ) ≤ y ∗ ⇒ ( x ∗ , y ∗ ) ∈ e p i ( f ) . f(\mathbf{x}^*)\le y^*\Rightarrow(\mathbf{x}^*,y^*)\in\mathrm{epi}(f). f(x)y(x,y)epi(f).这就证明了上镜图的闭性.

上面定理3的一个特殊情形就是 d o m ( f ) = E \mathrm{dom}(f)=\mathbb{E} dom(f)=E, 即 f f f是实值函数. 则 f f f E \mathbb{E} E上连续即可推出 f f f是闭函数. 换句话说, { f : d o m ( f ) = E , f ∈ C ( E ) } ⊂ { f : d o m ( f ) = E , f 在 E 上 是 闭 函 数 } . \{f:\mathrm{dom}(f)=\mathbb{E},f\in C(\mathbb{E})\}\subset\{f:\mathrm{dom}(f)=\mathbb{E},f在\mathbb{E}上是闭函数\}. {f:dom(f)=E,fC(E)}{f:dom(f)=E,fE}.下面我们将说明这个包含是“真”的.

例3 ( ℓ 0 \ell_0 0-范数2) 考虑 ℓ 0 \ell_0 0-范数函数 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR, 定义为 f ( x ) = ∥ x ∥ 0 = # { i : x i ≠ 0 } . f(\mathbf{x})=\Vert\mathbf{x}\Vert_0=\#\{i:x_i\not=0\}. f(x)=x0=#{i:xi=0}. ∥ x ∥ 0 \Vert\mathbf{x}\Vert_0 x0给出的是 x \mathbf{x} x中非零元素的数目. 这时 f f f的有效域是整个实空间 R n \mathbb{R}^n Rn. 而且 f f f还是闭函数. 事实上, 注意到 f ( x ) = ∑ i = 1 n I ( x i ) , f(\mathbf{x})=\sum_{i=1}^nI(x_i), f(x)=i=1nI(xi),其中 I : R → { 0 , 1 } I:\mathbb{R}\to\{0,1\} I:R{0,1}定义为 I ( y ) = { 0 , y = 0 , 1 , y ≠ 0. I(y)=\left\{\begin{array}{ll}0, & y=0,\\1, & y\ne0.\end{array}\right. I(y)={0,1,y=0,y=0.考察 I I I的水平集 L e v ( I , α ) = { ∅ , α < 0 , { 0 } , α ∈ [ 0 , 1 ) , R , α ≥ 1. \mathrm{Lev}(I,\alpha)=\left\{\begin{array}{ll}\emptyset, & \alpha<0,\\\{0\}, & \alpha\in[0,1),\\\mathbb{R}, & \alpha\ge1.\end{array}\right. Lev(I,α)=,{0},R,α<0,α[0,1),α1.显然对 ∀ α ∈ R \forall\alpha\in\mathbb{R} αR, 它都是闭集. 因此 I I I是闭函数, 而从定理2的(ii)我们知道, 闭函数的正组合仍然是闭函数. 因此 f f f就是闭的. 但 f f f显然不是连续函数.

下面我们再举一个有效域非整个 E \mathbb{E} E的例子.

例4 考虑如下定义的函数 f α : R → ( − ∞ , ∞ ] f_{\alpha}:\mathbb{R}\to(-\infty,\infty] fα:R(,], f α ( x ) = { α , x = 0 , x , 0 < x ≤ 1 , ∞ , 其 它 . f_{\alpha}(x)=\left\{\begin{array}{ll}\alpha, & x=0,\\x, & 0<x\le1,\\\infty, & 其它.\end{array}\right. fα(x)=α,x,,x=0,0<x1,.此函数是闭函数当且仅当 α ≤ 0 \alpha\le0 α0, 而它连续当且仅当 α = 0 \alpha=0 α=0. 因此, 函数 f − 0.1 f_{-0.1} f0.1 (图示见下图) 就是闭但不连续的.
在这里插入图片描述

一些连续函数的性质是可以扩展3到闭函数的. 著名的Weierstrass定理是讲, 连续函数在非空紧集4上必取到最小值. 我们现在证明这个结论对闭函数也对.

定理4 (闭函数的Weierstrass定理) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]是正常闭函数, C C C为满足 C ∩ d o m ( f ) ≠ ∅ C\cap\mathrm{dom}(f)\ne\emptyset Cdom(f)=的紧集. 于是
(i) f f f C C C上下有界;
(ii) f f f C C C上取到最小值.

证明: (i) 反证, 设 f f f C C C上下无界. 则存在序列 { x n } n ≥ 1 ⊂ C \{\mathbf{x}_n\}_{n\ge1}\subset C {xn}n1C使得 lim ⁡ n → ∞ f ( x n ) = − ∞ . \lim_{n\to\infty}f(\mathbf{x}_n)=-\infty. nlimf(xn)=.由Bolzano-Weierstrass定理, 从 C C C是紧集可推出存在子列 { x n k } k ≥ 1 \{\mathbf{x}_{n_k}\}_{k\ge1} {xnk}k1收敛到 x ˉ ∈ C \bar{\mathbf{x}}\in C xˉC. 由定理1我们知道, f f f下半连续, 因此 f ( x ˉ ) ≤ lim inf ⁡ k → ∞ f ( x n k ) , f(\bar\mathbf{x})\le\liminf_{k\to\infty}f(\mathbf{x}_{n_k}), f(xˉ)kliminff(xnk),这与前面的极限式矛盾.
(ii) 记 f f f C C C上的下确界5 f o p t f_{\mathrm{opt}} fopt. 于是存在序列 { x n } n ≥ 1 : f ( x n ) → f o p t \{\mathbf{x}_n\}_{n\ge1}:f(\mathbf{x}_n)\to f_{\mathrm{opt}} {xn}n1:f(xn)fopt. 如同(i), 存在子列 { x n k } k ≥ 1 : x n k → x ˉ ∈ C \{\mathbf{x}_{n_k}\}_{k\ge1}:\mathbf{x}_{n_k}\to\bar\mathbf{x}\in C {xnk}k1:xnkxˉC. 同样由 f f f的下半连续性, 我们得到 f ( x ˉ ) ≤ lim ⁡ k → ∞ f ( x n k ) = f o p t ⇒ f ( x ˉ ) = f o p t . f(\bar\mathbf{x})\le\lim_{k\to\infty}f(\mathbf{x}_{n_k})=f_{\mathrm{opt}}\Rightarrow f(\bar\mathbf{x})=f_{\mathrm{opt}}. f(xˉ)klimf(xnk)=foptf(xˉ)=fopt.这说明 f f f x ˉ \bar\mathbf{x} xˉ处取到在 C C C上的最小值.

上述定理4在 C C C非紧时是不一定成立的. 但如果 f f f具有强制性 (coerciveness), 则 C C C只需是闭集即可得到相同的结论. 为此, 我们先给出强制性的定义.

定义3 (强制性) 我们称正常函数 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]是强制的, 若 lim ⁡ ∥ x ∥ → ∞ f ( x ) = ∞ . \lim_{\Vert\mathbf{x}\Vert\to\infty}f(\mathbf{x})=\infty. xlimf(x)=.

下面我们证明: 强制的闭函数在任何与有效域有非空交的闭集上均能取到最小值.

定理5 (强制性下的最值定理6) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]是正常强制闭函数, S ⊂ E S\subset\mathbb{E} SE为满足 S ∪ d o m ( f ) ≠ ∅ S\cup\mathrm{dom}(f)\ne\emptyset Sdom(f)=的非空闭集. 于是 f f f S S S上必能取到最小值.

证明: 任取 x 0 ∈ S ∩ d o m ( f ) \mathbf{x}_0\in S\cap\mathrm{dom}(f) x0Sdom(f). 由 f f f的强制性, 存在 M > 0 M>0 M>0使得 f ( x ) > f ( x 0 ) , ∀ x : ∥ x ∥ > M . f(\mathbf{x})>f(\mathbf{x}_0),\quad\forall\mathbf{x}:\Vert\mathbf{x}\Vert>M. f(x)>f(x0),x:x>M.因为 f o p t ≤ f ( x 0 ) f_{\mathrm{opt}}\le f(\mathbf{x}_0) foptf(x0), 而 S ∩ B ∥ ⋅ ∥ [ 0 , M ] S\cap B_{\Vert\cdot\Vert}[\mathbf{0},M] SB[0,M]紧且非空 (至少有 x 0 \mathbf{x}_0 x0), 于是由定理4我们知道 f f f S ∩ B ∥ ⋅ ∥ [ 0 , M ] S\cap B_{\Vert\cdot\Vert}[\mathbf{0},M] SB[0,M]上必取到最小值, 从而在 S S S上必取到最小值. 证毕.

3. 凸函数

3.1 定义与基本性质

类似于闭性, 扩充实值函数的凸性 (convexity) 也是用上镜图定义的.

定义4 (凸函数 (convex functions)) 我们称扩充实值函数 f : E → [ − ∞ , ∞ ] f:\mathbb{E}\to[-\infty,\infty] f:E[,]是凸函数, 若 e p i ( f ) \mathrm{epi}(f) epi(f)是凸集.

下面我们给出正常扩充实值函数是凸函数的几种等价说法.

命题1 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]是正常扩充实值函数, 则以下三件事是等价的7:
(i) f f f是凸函数;
(ii) d o m ( f ) \mathrm{dom}(f) dom(f)是凸集, 且 f ∣ d o m ( f ) \left.f\right|_{\mathrm{dom}(f)} fdom(f) d o m ( f ) \mathrm{dom}(f) dom(f)上是凸函数8;
(iii) f ( λ x + ( 1 − λ ) y ) ≤ λ f ( x ) + ( 1 − λ ) f ( y ) , ∀ x , y ∈ E , λ ∈ [ 0 , 1 ] f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y}),\quad\forall\mathbf{x},\mathbf{y}\in\mathbb{E},\lambda\in[0,1] f(λx+(1λ)y)λf(x)+(1λ)f(y),x,yE,λ[0,1]9;
(iv) d o m ( f ) \mathrm{dom}(f) dom(f)是凸集, 且(iii)对 ∀ x , y ∈ d o m ( f ) , λ ∈ [ 0 , 1 ] \forall\mathbf{x},\mathbf{y}\in\mathrm{dom}(f),\lambda\in[0,1] x,ydom(f),λ[0,1]成立.

证明: (i) ⇒ \Rightarrow (ii) 为证 d o m ( f ) \mathrm{dom}(f) dom(f)是凸集, 任取 x , y ∈ d o m ( f ) \mathbf{x,y}\in\mathrm{dom}(f) x,ydom(f), 则 ( x , f ( x ) ) , ( y , f ( y ) ) ∈ e p i ( f ) (\mathbf{x},f(\mathbf{x})),(\mathbf{y},f(\mathbf{y}))\in\mathrm{epi}(f) (x,f(x)),(y,f(y))epi(f). 由 e p i ( f ) \mathrm{epi}(f) epi(f)的凸性, 我们知道 ( λ x + ( 1 − λ ) y , λ f ( x ) + ( 1 − λ ) f ( y ) ) ∈ e p i ( f ) , ∀ λ ∈ [ 0 , 1 ] . (\lambda\mathbf{x}+(1-\lambda)\mathbf{y},\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y}))\in\mathrm{epi}(f),\forall\lambda\in[0,1]. (λx+(1λ)y,λf(x)+(1λ)f(y))epi(f),λ[0,1]. 从而 λ x + ( 1 − λ ) y ∈ d o m ( f ) , ∀ λ ∈ [ 0 , 1 ] \lambda\mathbf{x}+(1-\lambda)\mathbf{y}\in\mathrm{dom}(f),\forall\lambda\in[0,1] λx+(1λ)ydom(f),λ[0,1]. 这就证明了 d o m ( f ) \mathrm{dom}(f) dom(f)是凸集. 由上式我们还可以推出 f ( λ x + ( 1 − λ ) y ) ≤ λ f ( x ) + ( 1 − λ ) f ( y ) , ∀ x , y ∈ d o m ( f ) , λ ∈ [ 0 , 1 ] . f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y}),\forall\mathbf{x,y}\in\mathrm{dom}(f),\lambda\in[0,1]. f(λx+(1λ)y)λf(x)+(1λ)f(y),x,ydom(f),λ[0,1].这就证明了 f ∣ d o m ( f ) \left.f\right|_{\mathrm{dom}(f)} fdom(f)是凸函数.
(ii) ⇒ \Rightarrow (iii) 由于 f ∣ d o m ( f ) \left.f\right|_{\mathrm{dom}(f)} fdom(f)是凸函数是凸函数, 因此(iii)对 ∀ x , y ∈ d o m ( f ) , λ ∈ [ 0 , 1 ] \forall\mathbf{x,y}\in\mathrm{dom}(f),\lambda\in[0,1] x,ydom(f),λ[0,1]是成立的. 若 x , y \mathbf{x},\mathbf{y} x,y至少有一个在 E ∖ d o m ( f ) \mathbb{E}\setminus\mathrm{dom}(f) Edom(f)中, 则(iii)显然成立.
(iii) ⇒ \Rightarrow (iv) 取 x , y ∈ d o f ( f ) \mathbf{x,y}\in\mathrm{dof}(f) x,ydof(f)即可证明 d o m ( f ) \mathrm{dom}(f) dom(f)是凸集. 而第二句话则显然成立.
(iv) ⇒ \Rightarrow (i) 为证 f f f是凸函数, 任取 ( x , α ) , ( y , β ) ∈ e p i ( f ) (\mathbf{x},\alpha),(\mathbf{y},\beta)\in\mathrm{epi}(f) (x,α),(y,β)epi(f). 于是 f ( λ x + ( 1 − λ ) y ) ≤ λ f ( x ) + ( 1 − λ ) f ( y ) ≤ λ α + ( 1 − λ ) β , ∀ λ ∈ [ 0 , 1 ] , f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})\le\lambda\alpha+(1-\lambda)\beta,\forall\lambda\in[0,1], f(λx+(1λ)y)λf(x)+(1λ)f(y)λα+(1λ)β,λ[0,1],其中第一个不等式由 d o m ( f ) \mathrm{dom}(f) dom(f)是凸集以及满足不等式得出, 第二个不等式则由上镜图的定义得出. 因此 ( λ x + ( 1 − λ ) y , λ α + ( 1 − λ ) β ) ∈ e p i ( f ) , ∀ λ ∈ [ 0 , 1 ] (\lambda\mathbf{x}+(1-\lambda)\mathbf{y},\lambda\alpha+(1-\lambda)\beta)\in\mathrm{epi}(f),\forall\lambda\in[0,1] (λx+(1λ)y,λα+(1λ)β)epi(f),λ[0,1]. 这就证明了 e p i ( f ) \mathrm{epi}(f) epi(f)是凸集.

定理6 (保凸性运算)10
(i) 设 A : E → V \mathcal{A}:\mathbb{E}\to\mathbb{V} A:EV为线性映射, b ∈ V \mathbf{b}\in\mathbb{V} bV, f : v → ( − ∞ , ∞ ] f:\mathbb{v}\to(-\infty,\infty] f:v(,]为扩充实值凸函数. 则如下定义的扩充实值函数 g : E → ( − ∞ , ∞ ] g:\mathbb{E}\to(-\infty,\infty] g:E(,] g ( x ) = f ( A ( x ) + b ) g(\mathbf{x})=f(\mathcal{A}(\mathbf{x})+\mathbf{b}) g(x)=f(A(x)+b)是凸函数;
(ii) 设 f 1 , f 2 , … , f m : E → ( − ∞ , ∞ ] f_1,f_2,\ldots,f_m:\mathbb{E}\to(-\infty,\infty] f1,f2,,fm:E(,]为扩充实值凸函数, α 1 , α 2 , … , α m ∈ R + \alpha_1,\alpha_2,\ldots,\alpha_m\in\mathbb{R}_+ α1,α2,,αmR+. 则函数 ∑ i = 1 m α i f i \sum_{i=1}^m\alpha_if_i i=1mαifi是凸函数;
(iii) 设 f i : E → ( − ∞ , ∞ ] , i ∈ I f_i:\mathbb{E}\to(-\infty,\infty],i\in I fi:E(,],iI为扩充实值凸函数, 其中 I I I为给定指标集. 则函数 f ( x ) = max ⁡ i ∈ I f i ( x ) f(\mathbf{x})=\max_{i\in I}f_i(\mathbf{x}) f(x)=iImaxfi(x)是凸函数.

证明以上三条时只需注意两点:

  1. 以上三条对于定义在凸集上的实值凸函数是显然的;
  2. 命题1的(ii).

详细证明略去.

例5 E \mathbb{E} E为欧式空间, C ⊂ E C\subset\mathbb{E} CE为非空集合. 考虑函数 φ C ( x ) = 1 2 ( ∥ x ∥ 2 − d C 2 ( x ) ) , \varphi_C(\mathbf{x})=\frac{1}{2}\left(\Vert\mathbf{x}\Vert^2-d_C^2(\mathbf{x})\right), φC(x)=21(x2dC2(x)),其中 d C ( x ) d_C(\mathbf{x}) dC(x)为如下定义的 x \mathbf{x} x C C C距离函数 (distance function)11: d C ( x ) = min ⁡ y ∈ C ∥ x − y ∥ . d_C(\mathbf{x})=\min_{\mathbf{y}\in C}\Vert\mathbf{x}-\mathbf{y}\Vert. dC(x)=yCminxy.我们将说明不论 C C C是凸集与否, φ C ( x ) \varphi_C(\mathbf{x}) φC(x)必定是凸函数. 注意到 d C 2 ( x ) = min ⁡ y ∈ C ∥ x − y ∥ 2 = ∥ x ∥ 2 − max ⁡ y ∈ C [ 2 ⟨ y , x ⟩ − ∥ y ∥ 2 ] . d_C^2(\mathbf{x})=\min_{\mathbf{y}\in C}\Vert\mathbf{x}-\mathbf{y}\Vert^2=\Vert\mathbf{x}\Vert^2-\max_{\mathbf{y}\in C}\left[2\langle\mathbf{y},\mathbf{x}\rangle-\Vert\mathbf{y}\Vert^2\right]. dC2(x)=yCminxy2=x2yCmax[2y,xy2].因此 φ C ( x ) = max ⁡ y ∈ C [ ⟨ y , x ⟩ − 1 2 ∥ y ∥ 2 ] . \varphi_C(\mathbf{x})=\max_{\mathbf{y}\in C}\left[\langle\mathbf{y},\mathbf{x}\rangle-\frac{1}{2}\Vert\mathbf{y}\Vert^2\right]. φC(x)=yCmax[y,x21y2].固定 y \mathbf{y} y, 内部的 ⟨ y , x ⟩ − 1 2 ∥ y ∥ 2 \langle\mathbf{y},\mathbf{x}\rangle-\frac{1}{2}\Vert\mathbf{y}\Vert^2 y,x21y2 x \mathbf{x} x的仿射函数 (从而使凸函数), 因此由定理6的(iii), 我们推出 φ C ( x ) \varphi_C(\mathbf{x}) φC(x)是凸函数.

下面我们再介绍一个保凸性的运算: 联合凸函数的部分极小化 (partial minimization of jointly convex functions).

定理7 (部分极小化下的凸性) 设 f : E × V → ( − ∞ , ∞ ] f:\mathbb{E}\times\mathbb{V}\to(-\infty,\infty] f:E×V(,]为满足如下性质的凸函数: ∀ x ∈ E , ∃ y ∈ V , s . t .   f ( x , y ) < ∞ . \forall\mathbf{x}\in\mathbb{E},\exists\mathbf{y}\in\mathbb{V}, \mathrm{s.t.}\,f(\mathbf{x},\mathbf{y})<\infty. xE,yV,s.t.f(x,y)<. g : E → [ − ∞ , ∞ ) g:\mathbb{E}\to[-\infty,\infty) g:E[,)12定义为 g ( x ) ≡ min ⁡ y ∈ E f ( x , y ) . g(\mathbf{x})\equiv\min_{\mathbf{y}\in\mathbb{E}}f(\mathbf{x},\mathbf{y}). g(x)yEminf(x,y).于是 g g g是凸函数.

证明: 取 x 1 , x 2 ∈ E , λ ∈ [ 0 , 1 ] \mathbf{x}_1,\mathbf{x}_2\in\mathbb{E},\lambda\in[0,1] x1,x2E,λ[0,1]. 为证明 g g g是凸函数, 由命题1的(iii), 我们等价地证明 g ( λ x 1 + ( 1 − λ ) x 2 ) ≤ λ g ( x 1 ) + ( 1 − λ ) g ( x 2 ) . g(\lambda\mathbf{x}_1+(1-\lambda)\mathbf{x}_2)\le\lambda g(\mathbf{x}_1)+(1-\lambda)g(\mathbf{x}_2). g(λx1+(1λ)x2)λg(x1)+(1λ)g(x2).这在 λ ∈ { 0 , 1 } \lambda\in\{0,1\} λ{0,1}是显然的. 因此我们设 λ ∈ ( 0 , 1 ) \lambda\in(0,1) λ(0,1). 我们分两种情形讨论.
情形1: 设 g ( x 1 ) , g ( x 2 ) > − ∞ g(\mathbf{x}_1),g(\mathbf{x}_2)>-\infty g(x1),g(x2)>. 任取 ϵ > 0 \epsilon>0 ϵ>0, 于是存在 y 1 , y 2 ∈ V \mathbf{y}_1,\mathbf{y}_2\in\mathbb{V} y1,y2V使得 f ( x 1 , y 1 ) ≤ g ( x 1 ) + ϵ , f ( x 2 , y 2 ) ≤ g ( x 2 ) + ϵ . \begin{aligned}f(\mathbf{x}_1,\mathbf{y}_1)&\le g(\mathbf{x}_1)+\epsilon,\\f(\mathbf{x}_2,\mathbf{y}_2)&\le g(\mathbf{x}_2)+\epsilon.\end{aligned} f(x1,y1)f(x2,y2)g(x1)+ϵ,g(x2)+ϵ. f f f的凸性, 我们有 f ( λ x 1 + ( 1 − λ ) x 2 , λ y 1 + ( 1 − λ ) y 2 ) ≤ λ f ( x 1 , y 1 ) + ( 1 − λ ) f ( x 2 , y 2 ) ≤ λ ( g ( x 1 ) + ϵ ) + ( 1 − λ ) ( g ( x 2 ) + ϵ ) = λ g ( x 1 ) + ( 1 − λ ) g ( x 2 ) + ϵ . \begin{aligned}f(\lambda\mathbf{x}_1+(1-\lambda)\mathbf{x}_2,\lambda\mathbf{y}_1+(1-\lambda)\mathbf{y}_2)&\le\lambda f(\mathbf{x}_1,\mathbf{y}_1)+(1-\lambda)f(\mathbf{x}_2,\mathbf{y}_2)\\&\le\lambda(g(\mathbf{x}_1)+\epsilon)+(1-\lambda)(g(\mathbf{x}_2)+\epsilon)\\&=\lambda g(\mathbf{x}_1)+(1-\lambda)g(\mathbf{x}_2)+\epsilon.\end{aligned} f(λx1+(1λ)x2,λy1+(1λ)y2)λf(x1,y1)+(1λ)f(x2,y2)λ(g(x1)+ϵ)+(1λ)(g(x2)+ϵ)=λg(x1)+(1λ)g(x2)+ϵ.而由 g g g的定义, 我们有 g ( λ x 1 + ( 1 − λ ) x 2 ) ≤ λ g ( x 1 ) + ( 1 − λ ) g ( x 2 ) + ϵ . g(\lambda\mathbf{x}_1+(1-\lambda)\mathbf{x}_2)\le\lambda g(\mathbf{x}_1)+(1-\lambda)g(\mathbf{x}_2)+\epsilon. g(λx1+(1λ)x2)λg(x1)+(1λ)g(x2)+ϵ.由于上式对 ∀ ϵ > 0 \forall\epsilon>0 ϵ>0均成立, 于是我们得证.
情形2: 设 g ( x 1 ) , g ( x 2 ) g(\mathbf{x}_1),g(\mathbf{x}_2) g(x1),g(x2)二者至少有一个取到 − ∞ -\infty . 不失一般性, 设 g ( x 1 ) = − ∞ g(\mathbf{x}_1)=-\infty g(x1)=. 于是我们只需证明 g ( λ x 1 + ( 1 − λ ) y ) = − ∞ g(\lambda\mathbf{x}_1+(1-\lambda)\mathbf{y})=-\infty g(λx1+(1λ)y)=. 对 ∀ M < 0 \forall M<0 M<0, 由于 g ( x 1 ) = − ∞ g(\mathbf{x}_1)=-\infty g(x1)=, 因此存在 y 1 ∈ V \mathbf{y}_1\in\mathbb{V} y1V使得 f ( x 1 , y 1 ) ≤ M . f(\mathbf{x}_1,\mathbf{y}_1)\le M. f(x1,y1)M.由条件可知, 存在 y 2 ∈ V \mathbf{y}_2\in\mathbb{V} y2V使得 f ( x 2 , y 2 ) < ∞ f(\mathbf{x}_2,\mathbf{y}_2)<\infty f(x2,y2)<.利用 f f f的凸性, 我们得到 f ( λ x 1 + ( 1 − λ ) x 2 , λ y 1 + ( 1 − λ ) y 2 ) ≤ λ f ( x 1 , y 1 ) + ( 1 − λ ) f ( x 2 , y 2 ) ≤ λ M + ( 1 − λ ) f ( x 2 , y 2 ) . \begin{aligned}f(\lambda\mathbf{x}_1+(1-\lambda)\mathbf{x}_2,\lambda\mathbf{y}_1+(1-\lambda)\mathbf{y}_2)&\le\lambda f(\mathbf{x}_1,\mathbf{y}_1)+(1-\lambda)f(\mathbf{x}_2,\mathbf{y}_2)\\&\le\lambda M+(1-\lambda)f(\mathbf{x}_2,\mathbf{y}_2).\end{aligned} f(λx1+(1λ)x2,λy1+(1λ)y2)λf(x1,y1)+(1λ)f(x2,y2)λM+(1λ)f(x2,y2).于是再次由 g g g的定义, g ( λ x 1 + ( 1 − λ ) x 2 ) ≤ λ M + ( 1 − λ ) f ( x 2 , y 2 ) . g(\lambda\mathbf{x}_1+(1-\lambda)\mathbf{x}_2)\le\lambda M+(1-\lambda)f(\mathbf{x}_2,\mathbf{y}_2). g(λx1+(1λ)x2)λM+(1λ)f(x2,y2).对上式取 λ = 1 \lambda=1 λ=1并令 M → − ∞ M\to-\infty M, 即可得证.

3.2 极小卷积

h 1 , h 2 : E → ( − ∞ , ∞ ] h_1,h_2:\mathbb{E}\to(-\infty,\infty] h1,h2:E(,]为两个正常函数. 则 h 1 , h 2 h_1,h_2 h1,h2极小卷积 (infimal convolution) h 1 □ h 2 h_1\square h_2 h1h2定义为 ( h 1 □ h 2 ) ( x ) ≡ min ⁡ u ∈ E { h 1 ( u ) + h 2 ( x − u ) } . (h_1\square h_2)(\mathbf{x})\equiv\min_{\mathbf{u}\in\mathbb{E}}\{h_1(\mathbf{u})+h_2(\mathbf{x}-\mathbf{u})\}. (h1h2)(x)uEmin{h1(u)+h2(xu)}.将定理7直接应用到这里, 我们可得一个正常凸函数和一个实值凸函数的极小卷积总是凸函数.

定理8 (极小卷积的凸性) 设 h 1 : E → ( − ∞ , ∞ ] h_1:\mathbb{E}\to(-\infty,\infty] h1:E(,]为一正常凸函数, h 2 : E → R h_2:\mathbb{E}\to\mathbb{R} h2:ER为一实值凸函数. 则 h 1 □ h 2 h_1\square h_2 h1h2是凸函数.

证明: 定义 f ( x , y ) ≡ h 1 ( y ) + h 2 ( x − y ) f(\mathbf{x},\mathbf{y})\equiv h_1(\mathbf{y})+h_2(\mathbf{x}-\mathbf{y}) f(x,y)h1(y)+h2(xy). h 1 , h 2 h_1,h_2 h1,h2的凸性可推出 f f f的凸性. 另外, 显然任取 x ∈ E \mathbf{x}\in\mathbb{E} xE, 总存在 y ∈ d o m ( h 1 ) \mathbf{y}\in\mathrm{dom}(h_1) ydom(h1), 使得 f ( x , y ) < ∞ f(\mathbf{x},\mathbf{y})<\infty f(x,y)<. 因此由定理7, 极小卷积 h 1 □ h 2 h_1\square h_2 h1h2作为 f ( ⋅ , ⋅ ) f(\cdot,\cdot) f(,)的对第二自变量的部分极小化, 是一个凸函数.

例6 (距离函数的凸性) 设 C ⊂ E C\subset\mathbb{E} CE为一非空凸集. 于是距离函数可以表示成如下的极小卷积: d C ( x ) = min ⁡ y { ∥ x − y ∥ : y ∈ C } = min ⁡ y ∈ E { δ C ( y ) + ∥ x − y ∥ } = ( δ C □ h 1 ) ( x ) , d_C(\mathbf{x})=\min_{\mathbf{y}}\{\Vert\mathbf{x}-\mathbf{y}\Vert:\mathbf{y}\in C\}=\min_{\mathbf{y}\in\mathbb{E}}\{\delta_{C}(\mathbf{y})+\Vert\mathbf{x}-\mathbf{y}\Vert\}=(\delta_C\square h_1)(\mathbf{x}), dC(x)=ymin{xy:yC}=yEmin{δC(y)+xy}=(δCh1)(x),其中 h 1 ( ⋅ ) = ∥ ⋅ ∥ h_1(\cdot)=\Vert\cdot\Vert h1()=. 由于 δ C \delta_C δC为正常凸函数, h 1 h_1 h1为实值凸函数 (范数的三角不等式性和正齐次性), 因此定理8告诉我们 d C d_C dC是凸函数.

3.3 凸函数的连续性

众所周知, 凸函数在其定义域的内点处是连续的. 下面我们给出一个更强的结论: 凸函数的局部Lipschitz连续性.

定理9 (凸函数的局部Lipschitz连续性) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]是凸函数, x 0 ∈ i n t ( d o m ( f ) ) \mathbf{x}_0\in\mathrm{int}(\mathrm{dom}(f)) x0int(dom(f)). 于是存在 ϵ > 0 , L > 0 \epsilon>0,L>0 ϵ>0,L>0使得 B [ x 0 , ϵ ] ⊂ d o m ( f ) B[\mathbf{x}_0,\epsilon]\subset \mathrm{dom}(f) B[x0,ϵ]dom(f) ∣ f ( x ) − f ( x 0 ) ∣ ≤ L ∥ x − x 0 ∥ , ∀ x ∈ B [ x 0 , ϵ ] . |f(\mathbf{x})-f(\mathbf{x}_0)|\le L\Vert\mathbf{x}-\mathbf{x}_0\Vert,\quad\forall\mathbf{x}\in B[\mathbf{x}_0,\epsilon]. f(x)f(x0)Lxx0,xB[x0,ϵ].

证明: 由于 x 0 ∈ i n t ( d o m ( f ) ) \mathbf{x}_0\in\mathrm{int}(\mathrm{dom}(f)) x0int(dom(f)), 于是存在 ϵ > 0 \epsilon>0 ϵ>0, 使得 B ∥ ⋅ ∥ ∞ [ x 0 , ϵ ] ⊂ d o m ( f ) B_{\Vert\cdot\Vert_{\infty}}[\mathbf{x}_0,\epsilon]\subset\mathrm{dom}(f) B[x0,ϵ]dom(f). 而对 ∀ x ∈ E \forall\mathbf{x}\in\mathbb{E} xE, ∥ x ∥ ∞ ≤ ∥ x ∥ 2 = ∥ x ∥ \Vert\mathbf{x}\Vert_{\infty}\le\Vert\mathbf{x}\Vert_2=\Vert\mathbf{x}\Vert xx2=x. 于是 B [ x 0 , ϵ ] = B ∥ ⋅ ∥ 2 [ x 0 , ϵ ] ⊂ B ∥ ⋅ ∥ ∞ [ x 0 , ϵ ] ⊂ d o m ( f ) . B[\mathbf{x}_0,\epsilon]=B_{\Vert\cdot\Vert_2}[\mathbf{x}_0,\epsilon]\subset B_{\Vert\cdot\Vert_{\infty}}[\mathbf{x}_0,\epsilon]\subset\mathrm{dom}(f). B[x0,ϵ]=B2[x0,ϵ]B[x0,ϵ]dom(f).下面我们先证明在 B [ x 0 , ϵ ] B[\mathbf{x}_0,\epsilon] B[x0,ϵ]中, f f f是有界的. 任取 ∀ x ∈ B [ x 0 , ϵ ] ⊂ B ∥ ⋅ ∥ ∞ [ x 0 , ϵ ] \forall\mathbf{x}\in B[\mathbf{x}_0,\epsilon]\subset B_{\Vert\cdot\Vert_{\infty}}[\mathbf{x}_0,\epsilon] xB[x0,ϵ]B[x0,ϵ]. 由于 B ∥ ⋅ ∥ ∞ [ x 0 , ϵ ] B_{\Vert\cdot\Vert_{\infty}}[\mathbf{x}_0,\epsilon] B[x0,ϵ] 2 n 2^n 2n个极点 { v i } i = 1 2 n = { x 0 + ϵ w i } i = 1 2 n \{\mathbf{v}_i\}_{i=1}^{2^n}=\{\mathbf{x}_0+\epsilon\mathbf{w}_i\}_{i=1}^{2^n} {vi}i=12n={x0+ϵwi}i=12n, 其中 w i ∈ { − 1 , 1 } n \mathbf{w}_i\in\{-1,1\}^n wi{1,1}n, 于是利用Krein-Milman定理, 我们推出存在 λ ∈ Δ 2 n \mathbf{\lambda}\in\Delta_{2^n} λΔ2n, 使得 x = ∑ i = 1 2 n λ i v i \mathbf{x}=\sum_{i=1}^{2^n}\lambda_i\mathbf{v}_i x=i=12nλivi. 再用Jensen不等式, 我们有 f ( x ) ≤ ∑ i = 1 2 n λ i f ( v i ) ≤ ∑ i = 1 2 n ∣ f ( v i ) ∣ ≜ M . f(\mathbf{x})\le\sum_{i=1}^{2^n}\lambda_if(\mathbf{v}_i)\le\sum_{i=1}^{2^n}|f(\mathbf{v}_i)|\triangleq M. f(x)i=12nλif(vi)i=12nf(vi)M.下面我们证明定理的结论: 任取 x ∈ B [ x 0 , ϵ ] \mathbf{x}\in B[\mathbf{x}_0,\epsilon] xB[x0,ϵ], 记 z = x 0 + 1 α ( x − x 0 ) , \mathbf{z}=\mathbf{x}_0+\frac{1}{\alpha}(\mathbf{x}-\mathbf{x}_0), z=x0+α1(xx0),其中 α = ∥ x − x 0 ∥ ϵ \alpha=\frac{\Vert\mathbf{x}-\mathbf{x}_0\Vert}{\epsilon} α=ϵxx0. 于是易知 α ∈ [ 0 , 1 ] \alpha\in[0,1] α[0,1] z ∈ B [ x 0 , ϵ ] \mathbf{z}\in B[\mathbf{x}_0,\epsilon] zB[x0,ϵ]. 因此我们有 α M ≥ α f ( z ) ≥ f ( x ) − ( 1 − α ) f ( x 0 ) = f ( x ) − f ( x 0 ) + α f ( x 0 ) . \begin{aligned}\alpha M\ge \alpha f(\mathbf{z})&\ge f(\mathbf{x})-(1-\alpha)f(\mathbf{x}_0)\\&= f(\mathbf{x})-f(\mathbf{x}_0)+\alpha f(\mathbf{x}_0).\end{aligned} αMαf(z)f(x)(1α)f(x0)=f(x)f(x0)+αf(x0).其中第二个不等号来自Jensen不等式. 于是我们就得到 f ( x ) − f ( x 0 ) ≤ α ( M − f ( x 0 ) ) = M − f ( x 0 ) ϵ ∥ x − x 0 ∥ . f(\mathbf{x})-f(\mathbf{x}_0)\le\alpha(M-f(\mathbf{x}_0))=\frac{M-f(\mathbf{x}_0)}{\epsilon}\Vert\mathbf{x}-\mathbf{x}_0\Vert. f(x)f(x0)α(Mf(x0))=ϵMf(x0)xx0.下面我们证明另一边. 记 u = x 0 + 1 α ( x 0 − x ) . \mathbf{u}=\mathbf{x}_0+\frac{1}{\alpha}(\mathbf{x}_0-\mathbf{x}). u=x0+α1(x0x).类似地, u ∈ B [ x 0 , ϵ ] \mathbf{u}\in B[\mathbf{x}_0,\epsilon] uB[x0,ϵ]. 因此 M ≥ f ( u ) ≥ α + 1 α ( f ( x 0 ) − 1 α + 1 f ( x ) ) = f ( x 0 ) + 1 α ( f ( x 0 ) − f ( x ) ) . \begin{aligned} M\ge f(\mathbf{u})&\ge \frac{\alpha+1}{\alpha}\left(f(\mathbf{x}_0)-\frac{1}{\alpha+1}f(\mathbf{x})\right)\\&=f(\mathbf{x}_0)+\frac{1}{\alpha}\left(f(\mathbf{x}_0)-f(\mathbf{x})\right).\end{aligned} Mf(u)αα+1(f(x0)α+11f(x))=f(x0)+α1(f(x0)f(x)).从而有 f ( x 0 ) − f ( x ) ≤ α ( M − f ( x 0 ) ) = M − f ( x 0 ) ϵ ∥ x − x 0 ∥ . f(\mathbf{x}_0)-f(\mathbf{x})\le\alpha(M-f(\mathbf{x}_0))=\frac{M-f(\mathbf{x}_0)}{\epsilon}\Vert\mathbf{x}-\mathbf{x}_0\Vert. f(x0)f(x)α(Mf(x0))=ϵMf(x0)xx0.结合上面的讨论, 我们就得到 ∣ f ( x 0 ) − f ( x ) ∣ ≤ M − f ( x 0 ) ϵ ∥ x − x 0 ∥ ≜ L ∥ x − x 0 ∥ . |f(\mathbf{x}_0)- f(\mathbf{x})|\le\frac{M- f(\mathbf{x}_0)}{\epsilon}\Vert\mathbf{x-x_0}\Vert\triangleq L\Vert\mathbf{x-x_0}\Vert. f(x0)f(x)ϵMf(x0)xx0Lxx0.
证毕.

凸函数在边界点是不必连续的. 甚至在函数是闭凸的时, 这一点依然得不到保障 (见后文的例13). 但下面我们将说明单变量的闭凸函数在其有效域上一定是连续函数.

定理10 (单变量闭凸函数的连续性) 设 f : R → ( − ∞ , ∞ ] f:\mathbb{R}\to(-\infty,\infty] f:R(,]为正常的闭凸函数. 则 f f f d o m ( f ) \mathrm{dom}(f) dom(f)上是连续的.

证明: 由于 f f f是凸函数, 因此其有效域为某个区间 I = d o m ( f ) I=\mathrm{dom}(f) I=dom(f). 若 i n t ( I ) = ∅ \mathrm{int}(I)=\emptyset int(I)=, 则 I I I为单点集, f f f在其上的连续性是显然的. 于是设 i n t ( I ) ≠ ∅ \mathrm{int}(I)\ne\emptyset int(I)=. 定理9告诉我们, f f f i n t ( I ) \mathrm{int}(I) int(I)上连续. 因此我们只需证明 f f f I I I的边界点 (如果存在的话) 上连续. 为此, 不失一般性, 我们假设 I I I有左端点 a a a. 下面证明 f f f a a a处的右连续性. 首先证明 lim ⁡ t → a + f ( t ) \lim_{t\to a^+}f(t) limta+f(t)存在. 任取 c ∈ I : c > a c\in I:c>a cI:c>a, 定义函数 g ( t ) = f ( c − t ) − f ( c ) t . g(t)=\frac{f(c-t)-f(c)}{t}. g(t)=tf(ct)f(c).显然 g g g是定义在 ( 0 , c − a ] (0,c-a] (0,ca]上的. 我们将证明 g g g ( 0 , c − a ] (0,c-a] (0,ca]上非减且上有界. 为此, 任取 0 < t ≤ s ≤ c − a 0<t\le s\le c-a 0<tsca. 于是 c − t = ( 1 − t s ) c + t s ( c − s ) , c-t=\left(1-\frac{t}{s}\right)c+\frac{t}{s}(c-s), ct=(1st)c+st(cs),因此由 f f f的凸性可得 f ( c − t ) ≤ ( 1 − t s ) f ( c ) + t s f ( c − s ) , f(c-t)\le\left(1-\frac{t}{s}\right)f(c)+\frac{t}{s}f(c-s), f(ct)(1st)f(c)+stf(cs),稍作整理后, 可得 f ( c − t ) − f ( c ) t ≤ f ( c − s ) − f ( c ) s . \frac{f(c-t)-f(c)}{t}\le\frac{f(c-s)-f(c)}{s}. tf(ct)f(c)sf(cs)f(c).因此 g ( t ) ≤ g ( s ) , ∀ 0 < t ≤ s ≤ c − a . g(t)\le g(s),\quad\forall 0<t\le s\le c-a. g(t)g(s),0<tsca. g g g ( 0 , c − a ] (0,c-a] (0,ca]上非减. 进一步地, g ( t ) ≤ g ( c − a ) , ∀ t ∈ ( 0 , c − a ] . g(t)\le g(c-a),\quad\forall t\in(0,c-a]. g(t)g(ca),t(0,ca].这就证明了 g g g ( 0 , c − a ] (0,c-a] (0,ca]上有界. 由数学分析我们可推出 lim ⁡ t → ( c − a ) − g ( t ) \lim_{t\to(c-a)^-}g(t) limt(ca)g(t)存在, 记为 ℓ \ell . 因此 f ( c − t ) = f ( c ) + t g ( t ) → f ( c ) + ( c − a ) ℓ , f(c-t)=f(c)+tg(t)\to f(c)+(c-a)\ell, f(ct)=f(c)+tg(t)f(c)+(ca), lim ⁡ t → a + f ( t ) \lim_{t\to a^+}f(t) limta+f(t)也存在且等于 f ( c ) + ( c − a ) ℓ f(c)+(c-a)\ell f(c)+(ca). 由 g g g的上有界, 我们可得 f ( c − t ) = f ( c ) + t g ( t ) ≤ f ( c ) + ( c − a ) g ( c − a ) = f ( a ) ⇒ lim ⁡ t → a + f ( t ) ≤ f ( a ) . f(c-t)=f(c)+tg(t)\le f(c)+(c-a)g(c-a)=f(a)\Rightarrow\lim_{t\to a^+}f(t)\le f(a). f(ct)=f(c)+tg(t)f(c)+(ca)g(ca)=f(a)ta+limf(t)f(a).另一方面, 因 f f f是凸函数等价于 f f f下半连续, 所以又有 f ( a ) ≤ lim ⁡ t → a + f ( t ) f(a)\le\lim_{t\to a^+}f(t) f(a)limta+f(t). 所以就有 f ( a ) = lim ⁡ t → a − f ( t ) f(a)=\lim_{t\to a^-}f(t) f(a)=limtaf(t), 证明了 f f f a a a处的右连续性. 证毕.

4. 支撑函数

C ⊂ E C\subset\mathbb{E} CE为非空集合. 则 C C C支撑函数 (support function) 为如下定义的 σ C : E ∗ → ( − ∞ , ∞ ] \sigma_C:\mathbb{E}^*\to(-\infty,\infty] σC:E(,], σ C ( y ) = max ⁡ x ∈ C ⟨ y , x ⟩ . \sigma_C(\mathbf{y})=\max_{\mathbf{x}\in C}\langle\mathbf{y},\mathbf{x}\rangle. σC(y)=xCmaxy,x.固定 x x x, 则线性函数 y ↦ ⟨ y , x ⟩ \mathbf{y}\mapsto\langle\mathbf{y},\mathbf{x}\rangle yy,x显然是闭凸函数. 因此我们由定理2的(iii)和定理6的(iii)可知, 支撑函数也是闭凸函数. 而这与 C C C是闭或是凸集与否无关.

引理1 (支撑函数的闭凸性) 设 C ⊂ E C\subset\mathbb{E} CE为一非空集合. 则 σ C \sigma_C σC为闭凸函数.

这里注意到, σ C \sigma_C σC是定义在 E ∗ \mathbb{E}^* E上的函数. 而之前我们说过 E \mathbb{E} E E ∗ \mathbb{E}^* E在元素上可以视作相同. 因此, σ C \sigma_C σC定义在 E \mathbb{E} E还是 E ∗ \mathbb{E}^* E上从元素的对应角度上没有差别. 但如果涉及到了范数, 我们就必须使用对偶范数 (参见例12).
下面我们简单列举支撑函数的一些性质. 在这之前我们给出两个集合运算律: 给定属于同一空间的两集合 A , B A,B A,B
(i) Minkowski和: A + B = { a + b : a ∈ A , b ∈ B } . A+B=\{\mathbf{a}+\mathbf{b}:\mathbf{a}\in A,\mathbf{b}\in B\}. A+B={a+b:aA,bB}.
(ii) 数乘: ∀ α ∈ R \forall\alpha\in\mathbb{R} αR, α A = { α a : a ∈ A } . \alpha A=\{\alpha\mathbf{a}:\mathbf{a}\in A\}. αA={αa:aA}.

引理2 (支撑函数的性质) 对任意非空集合 C ⊂ E C\subset\mathbb{E} CE,
(i) (正齐次性) 对 ∀ y ∈ E ∗ \forall\mathbf{y}\in\mathbb{E}^* yE, α ≥ 0 \alpha\ge0 α0, σ C ( α y ) = α σ C ( y ) . \sigma_C(\alpha\mathbf{y})=\alpha\sigma_C(\mathbf{y}). σC(αy)=ασC(y).
(ii) (次可加性 (subadditivity)) 对 ∀ y 1 , y 2 ∈ E ∗ \forall\mathbf{y}_1,\mathbf{y}_2\in\mathbb{E}^* y1,y2E, σ C ( y 1 + y 2 ) ≤ σ C ( y 1 ) + σ C ( y 2 ) . \sigma_C(\mathbf{y}_1+\mathbf{y}_2)\le\sigma_C(\mathbf{y}_1)+\sigma_C(\mathbf{y}_2). σC(y1+y2)σC(y1)+σC(y2).
(iii) 对 ∀ y ∈ E ∗ \forall\mathbf{y}\in\mathbb{E}^* yE, α ≥ 0 \alpha\ge0 α0, σ α C ( y ) = α σ C ( y ) . \sigma_{\alpha C}(\mathbf{y})=\alpha\sigma_C(\mathbf{y}). σαC(y)=ασC(y).
(iv) 对任意非空集合 A , B ∈ E , y ∈ E ∗ A,B\in\mathbb{E},\mathbf{y}\in\mathbb{E}^* A,BE,yE, σ A + B ( y ) = σ A ( y ) + σ B ( y ) . \sigma_{A+B}(\mathbf{y})=\sigma_A(\mathbf{y})+\sigma_B(\mathbf{y}). σA+B(y)=σA(y)+σB(y).

证明: 我们仅证明(iv). σ A + B ( y ) = max ⁡ x ∈ A + B ⟨ y , x ⟩ = max ⁡ x 1 ∈ A , x 2 ∈ B ⟨ y , x 1 + x 2 ⟩ = max ⁡ x 1 ∈ A , x 2 ∈ B [ ⟨ y , x 1 ⟩ + ⟨ y , x 2 ⟩ ] = max ⁡ x 1 ∈ A ⟨ y , x 1 ⟩ + max ⁡ x 2 ∈ B ⟨ y , x 2 ⟩ = σ A ( y ) + σ B ( y ) . \begin{aligned}\sigma_{A+B}(\mathbf{y})&=\max_{\mathbf{x}\in A+B}\langle\mathbf{y},\mathbf{x}\rangle=\max_{\mathbf{x}_1\in A,\mathbf{x}_2\in B}\langle\mathbf{y},\mathbf{x}_1+\mathbf{x}_2\rangle\\&=\max_{\mathbf{x}_1\in A,\mathbf{x}_2\in B}[\langle\mathbf{y},\mathbf{x}_1\rangle+\langle\mathbf{y},\mathbf{x}_2\rangle]=\max_{\mathbf{x}_1\in A}\langle\mathbf{y},\mathbf{x}_1\rangle+\max_{\mathbf{x}_2\in B}\langle\mathbf{y},\mathbf{x}_2\rangle\\&=\sigma_A(\mathbf{y})+\sigma_B(\mathbf{y}).\end{aligned} σA+B(y)=xA+Bmaxy,x=x1A,x2Bmaxy,x1+x2=x1A,x2Bmax[y,x1+y,x2]=x1Amaxy,x1+x2Bmaxy,x2=σA(y)+σB(y).

下面我们通过举例向读者展示一些具体的支撑函数.

4.1 有限集的支撑函数

例7 (有限集的支撑函数) 设 C = { b 1 , b 2 , … , b m } , C=\{\mathbf{b}_1,\mathbf{b}_2,\ldots,\mathbf{b}_m\}, C={b1,b2,,bm},其中 b 1 , b 2 , … , b m ∈ E \mathbf{b}_1,\mathbf{b}_2,\ldots,\mathbf{b}_m\in\mathbb{E} b1,b2,,bmE. 于是 σ C ( y ) = max ⁡ { ⟨ b 1 , y ⟩ , ⟨ b 2 , y ⟩ , … , ⟨ b m , y ⟩ } . \boxed{\sigma_C(\mathbf{y})=\max\{\langle\mathbf{b}_1,\mathbf{y}\rangle,\langle\mathbf{b}_2,\mathbf{y}\rangle,\ldots,\langle\mathbf{b}_m,\mathbf{y}\rangle\}.} σC(y)=max{b1,y,b2,y,,bm,y}.

4.2 锥的支撑函数

例8 (锥的支撑函数) 设 K ⊂ E K\subset\mathbb{E} KE为锥. 定义 K K K极锥 (polar cone) 为 K ∘ = { y ∈ E ∗ : ⟨ y , x ⟩ ≤ 0 , ∀ x ∈ K } . K^{\circ}=\{\mathbf{y}\in\mathbb{E}^*:\langle\mathbf{y},\mathbf{x}\rangle\le0,\forall\mathbf{x}\in K\}. K={yE:y,x0,xK}.即(从 E = E ∗ \mathbb{E}=\mathbb{E}^* E=E的观点看)极锥 K ∘ K^{\circ} K包含了那些与 K K K中任意向量成钝角的那些向量. 我们下面证明 σ K ( y ) = δ K ∘ ( y ) . \boxed{\sigma_K(\mathbf{y})=\delta_{K^{\circ}}(\mathbf{y}).} σK(y)=δK(y).事实上, 若 y ∈ K ∘ \mathbf{y}\in K^{\circ} yK, 则 ⟨ y , x ⟩ ≤ 0 , ∀ x ∈ K \langle\mathbf{y},\mathbf{x}\rangle\le0,\forall\mathbf{x}\in K y,x0,xK; 特别地, 当 x = 0 \mathbf{x}=0 x=0时, ⟨ y , x ⟩ = 0 \langle\mathbf{y},\mathbf{x}\rangle=0 y,x=0. 因此 σ K ( y ) = max ⁡ x ∈ K ⟨ y , x ⟩ = 0. \sigma_K(\mathbf{y})=\max_{\mathbf{x}\in K}\langle\mathbf{y,x}\rangle=0. σK(y)=xKmaxy,x=0.而若 y ∉ K ∘ \mathbf{y}\notin K^{\circ} y/K, 则存在 x ~ ∈ K \tilde\mathbf{x}\in K x~K使得 ⟨ y , x ~ ⟩ > 0 \langle\mathbf{y},\tilde\mathbf{x}\rangle>0 y,x~>0. 由于 λ x ~ ∈ K , ∀ λ ≥ 0 \lambda\tilde\mathbf{x}\in K,\forall\lambda\ge0 λx~K,λ0, 因此我们有 σ K ( y ) ≥ ⟨ y , λ x ~ ⟩ = λ ⟨ y , x ~ ⟩ , ∀ λ ≥ 0. \sigma_K(\mathbf{y})\ge\langle\mathbf{y},\lambda\tilde\mathbf{x}\rangle=\lambda\langle\mathbf{y},\tilde\mathbf{x}\rangle,\quad\forall\lambda\ge0. σK(y)y,λx~=λy,x~,λ0. λ → ∞ \lambda\to\infty λ, 我们就推出 σ K ( y ) = ∞ , ∀ y ∉ K ∘ \sigma_K(\mathbf{y})=\infty,\forall\mathbf{y}\notin K^{\circ} σK(y)=,y/K. 得证.

例9 (非负象限的支撑函数) 考虑实空间 E = R n \mathbb{E}=\mathbb{R}^n E=Rn. 作为例8的特殊情形, 由于 ( R + n ) ∘ = R − n \left(\mathbb{R}^n_+\right)^{\circ}=\mathbb{R}^n_- (R+n)=Rn, 因此例8的结论变成 σ R + n ( y ) = δ R − n ( y ) . \boxed{\sigma_{\mathbb{R}^n_+}(\mathbf{y})=\delta_{\mathbb{R}^n_-}(\mathbf{y}).} σR+n(y)=δRn(y).

下面我们讨论凸多面体锥 (convex polyhedral cone) 的支撑函数. 为此, 我们先证明一个择一性定理——Farkas引理 (Farkas’s lemma).

引理3 (Farkas引理——第二形式) 设 c ∈ R n , A ∈ R m × n \mathbf{c}\in\mathbb{R}^n,\mathbf{A}\in\mathbb{R}^{m\times n} cRn,ARm×n. 于是下面两件事是等价的:
(i) 从 A x ≤ 0 \mathbf{Ax}\le\mathbf{0} Ax0可推出 c T x ≤ 0 \mathbf{c}^T\mathbf{x}\le0 cTx0;
(ii) 存在 y ∈ R + m \mathbf{y}\in\mathbb{R}^m_+ yR+m, 使得 A T y = c \mathbf{A}^T\mathbf{y}=\mathbf{c} ATy=c.

证明: 从(ii)证(i)是显然的. 下面我们用反证法证明反方向. 若不然, 由原始形式的Farkas引理可知, 存在 d ∈ R n \mathbf{d}\in\mathbb{R}^n dRn, 使得 A d ≥ 0 , c T d < 0 \mathbf{Ad}\ge\mathbf{0},\mathbf{c}^T\mathbf{d}<0 Ad0,cTd<0. 于是 A ( − d ) ≤ 0 ⇒ − c T d ≤ 0 ⇒ c T d ≥ 0 \mathbf{A}(-\mathbf{d})\le0\Rightarrow-\mathbf{c}^T\mathbf{d}\le0\Rightarrow\mathbf{c}^T\mathbf{d}\ge0 A(d)0cTd0cTd0. 矛盾! 因此得证.

例10 (凸多面体锥的支撑函数) 考虑实空间 E = R n \mathbb{E}=\mathbb{R}^n E=Rn. 设 A ∈ R m × n \mathbf{A}\in\mathbb{R}^{m\times n} ARm×n. 定义集合 S = { x ∈ R n : A x ≤ 0 } . S=\{\mathbf{x}\in\mathbb{R}^n:\mathbf{Ax\le0}\}. S={xRn:Ax0}.因为 S S S是锥, 因此直接使用例8的结论我们可得 σ S ( y ) = δ S ∘ ( y ) . \sigma_S(\mathbf{y})=\delta_{S^{\circ}}(\mathbf{y}). σS(y)=δS(y).下面我们来刻画 S ∘ S^{\circ} S. 注意到 y ∈ S ∘ \mathbf{y}\in S^{\circ} yS当且仅当 ⟨ y , x ⟩ ≤ 0 , ∀ x : A x ≤ 0 . \langle\mathbf{y},\mathbf{x}\rangle\le0,\quad\forall\mathbf{x}:\mathbf{Ax\le0}. y,x0,x:Ax0.由Farkas引理, 上式等价于 ∃ λ ∈ R + m : A T λ = y . \exists\lambda\in\mathbb{R}^m_+:\mathbf{A}^T\lambda=\mathbf{y}. λR+m:ATλ=y.因此, S ∘ = { A T λ : λ ∈ R + m } , S^{\circ}=\{\mathbf{A}^T\lambda:\lambda\in\mathbb{R}_+^m\}, S={ATλ:λR+m}, σ S ( y ) = δ { A T λ : λ ∈ R + m } ( y ) . \boxed{\sigma_S(\mathbf{y})=\delta_{\left\{\mathbf{A}^T\lambda:\lambda\in\mathbb{R}^m_+\right\}}(\mathbf{y}).} σS(y)=δ{ATλ:λR+m}(y).

例11 (仿射集的支撑函数) 考虑实空间 E = R n \mathbb{E}=\mathbb{R}^n E=Rn. 设 B ∈ R m × n \mathbf{B}\in\mathbb{R}^{m\times n} BRm×n, b ∈ R m \mathbf{b}\in\mathbb{R}^m bRm. 定义仿射集 C = { x ∈ R n : B x = b } . C=\{\mathbf{x}\in\mathbb{R}^n:\mathbf{Bx=b}\}. C={xRn:Bx=b}.我们假设 C C C是非空的, 即 ∃ x 0 ∈ R n : B x 0 = b \exists\mathbf{x}_0\in\mathbb{R}^n:\mathbf{Bx}_0=\mathbf{b} x0Rn:Bx0=b. 按定义, C C C的支撑函数为 σ C ( y ) = max ⁡ x { ⟨ y , x ⟩ : B x = b } . \sigma_C(\mathbf{y})=\max_{\mathbf{x}}\{\langle\mathbf{y},\mathbf{x}\rangle:\mathbf{Bx=b}\}. σC(y)=xmax{y,x:Bx=b}.作平移 x = z + x 0 \mathbf{x}=\mathbf{z+x}_0 x=z+x0. 于是上式可重新写作 σ C ( y ) = max ⁡ z { ⟨ y , z ⟩ + ⟨ y , x 0 ⟩ : B z = 0 } = ⟨ y , x 0 ⟩ + max ⁡ z { ⟨ y , z ⟩ : B z = 0 } = ⟨ y , x 0 ⟩ + σ C ~ ( y ) , \begin{aligned}\sigma_C(\mathbf{y})&=\max_{\mathbf{z}}\{\langle\mathbf{y},\mathbf{z}\rangle+\langle\mathbf{y},\mathbf{x}_0\rangle:\mathbf{Bz=0}\}\\&=\langle\mathbf{y},\mathbf{x}_0\rangle+\max_{\mathbf{z}}\{\langle\mathbf{y},\mathbf{z}\rangle:\mathbf{Bz=0}\}\\&=\langle\mathbf{y},\mathbf{x}_0\rangle+\sigma_{\tilde C}(\mathbf{y}),\end{aligned} σC(y)=zmax{y,z+y,x0:Bz=0}=y,x0+zmax{y,z:Bz=0}=y,x0+σC~(y),其中 C ~ = { x ∈ R n : B x = 0 } \tilde C=\{\mathbf{x}\in\mathbb{R}^n:\mathbf{Bx=0}\} C~={xRn:Bx=0}. 而集合 C ~ \tilde C C~可以写作凸多面体锥的形式: C ~ = { x ∈ R n : A x ≤ 0 } , \tilde C=\{\mathbf{x}\in\mathbb{R}^n:\mathbf{Ax\le0}\}, C~={xRn:Ax0},这里 A = ( B − B ) \mathbf{A}=\begin{pmatrix}\mathbf{B}\\-\mathbf{B}\end{pmatrix} A=(BB). 由例10我们知道, σ C ~ = δ C ~ ∘ , \sigma_{\tilde C}=\delta_{\tilde C^{\circ}}, σC~=δC~,这里 C ~ ∘ \tilde C^{\circ} C~ C ~ \tilde C C~的极锥, C ~ ∘ = { B T λ 1 − B T λ 2 : λ 1 , λ 2 ∈ R + m } = R a n g e ( B T ) . \tilde C^{\circ}=\{\mathbf{B}^T\lambda_1-\mathbf{B}^T\lambda_2:\lambda_1,\lambda_2\in\mathbb{R}^m_+\}=\mathrm{Range}(\mathbf{B}^T). C~={BTλ1BTλ2:λ1,λ2R+m}=Range(BT).最终, 我们得到 σ C ( y ) = ⟨ y , x 0 ⟩ + δ R a n g e ( B T ) ( y ) . \boxed{\sigma_C(\mathbf{y})=\langle\mathbf{y},\mathbf{x}_0\rangle+\delta_{\mathrm{Range}(\mathbf{B}^T)}(\mathbf{y}).} σC(y)=y,x0+δRange(BT)(y).

4.3 单位球的支撑函数

例12 (单位球的支撑函数) 考虑单位球 B ∥ ⋅ ∥ [ 0 , 1 ] = { x ∈ E : ∥ x ∥ ≤ 1 } . B_{\Vert\cdot\Vert}[\mathbf{0},1]=\{\mathbf{x}\in\mathbb{E}:\Vert\mathbf{x}\Vert\le1\}. B[0,1]={xE:x1}.由对偶范数的定义, 我们有对 ∀ y ∈ E ∗ \forall\mathbf{y}\in\mathbb{E}^* yE, σ B ∥ ⋅ ∥ [ 0 , 1 ] ( y ) = max ⁡ ∥ x ∥ ≤ 1 ⟨ y , x ⟩ = ∥ y ∥ ∗ . \boxed{\sigma_{B_{\Vert\cdot\Vert}[\mathbf{0},1]}(\mathbf{y})=\max_{\Vert\mathbf{x}\Vert\le1}\langle\mathbf{y},\mathbf{x}\rangle=\Vert\mathbf{y}\Vert_*.} σB[0,1](y)=x1maxy,x=y.对于 E = R n \mathbb{E}=\mathbb{R}^n E=Rn的特殊情形, 我们有 σ B ∥ ⋅ ∥ p [ 0 , 1 ] ( y ) = ∥ y ∥ q , ( 1 ≤ p ≤ ∞ , 1 p + 1 q = 1 ) ; σ B ∥ ⋅ ∥ Q [ 0 , 1 ] = ∥ y ∥ Q − 1 , ( Q ∈ S + + n ) . \boxed{\sigma_{B_{\Vert\cdot\Vert_p}[\mathbf{0},1]}(\mathbf{y})=\Vert\mathbf{y}\Vert_q,\quad\left(1\le p\le\infty,\frac{1}{p}+\frac{1}{q}=1\right);}\\\boxed{\sigma_{B_{\Vert\cdot\Vert_{\mathbf{Q}}}[\mathbf{0},1]}=\Vert\mathbf{y}\Vert_{\mathbf{Q}^{-1}},\quad\left(\mathbf{Q}\in\mathbb{S}^n_{++}\right).} σBp[0,1](y)=yq,(1p,p1+q1=1);σBQ[0,1]=yQ1,(QS++n).

4.4 闭凸函数不连续的例子

下一个例子也说明了闭凸函数不必连续.

例13 考虑 R 2 \mathbb{R}^2 R2中的集合 C = { ( x 1 , x 2 ) T : x 1 + x 2 2 2 ≤ 0 } . C=\left\{(x_1,x_2)^T:x_1+\frac{x_2^2}{2}\le0\right\}. C={(x1,x2)T:x1+2x220}.于是 C C C的支撑函数为 σ C ( y ) = max ⁡ x 1 , x 2 { y 1 x 1 + y 2 x 2 : x 1 + x 2 2 2 ≤ 0 } . \sigma_C(\mathbf{y})=\max_{x_1,x_2}\left\{y_1x_1+y_2x_2:x_1+\frac{x_2^2}{2}\le0\right\}. σC(y)=x1,x2max{y1x1+y2x2:x1+2x220}.显然 σ C ( 0 ) = 0 \sigma_C(\mathbf{0})=0 σC(0)=0. 因此令 y ≠ 0 \mathbf{y}\ne\mathbf{0} y=0. 此时, 已知上述极大化问题的最优点必定取在 C C C的边界点. 事实上若取在了 C C C的内部, 则目标函数的梯度 y \mathbf{y} y必定是 0 \mathbf{0} 0. 这与前提相悖. 因此 σ C ( y ) = max ⁡ x 1 , x 2 { y 1 x 1 + y 2 x 2 : x 1 + x 2 2 2 = 0 } = max ⁡ x 2 { − y 1 2 x 2 2 + y 2 x 2 } . \sigma_C(\mathbf{y})=\max_{x_1,x_2}\left\{y_1x_1+y_2x_2:x_1+\frac{x_2^2}{2}=0\right\}=\max_{x_2}\left\{-\frac{y_1}{2}x_2^2+y_2x_2\right\}. σC(y)=x1,x2max{y1x1+y2x2:x1+2x22=0}=x2max{2y1x22+y2x2}. y 1 < 0 y_1<0 y1<0 y 1 = 0 , y 2 ≠ 0 y_1=0,y_2\ne0 y1=0,y2=0, 最大值都是 ∞ \infty ; 当 y 1 > 0 y_1>0 y1>0, 则最大值在 x 2 = y 2 y 1 x_2=\frac{y_2}{y_1} x2=y1y2取到, 对应的最大值为 y 2 2 2 y 1 \frac{y_2^2}{2y_1} 2y1y22. 因此此支撑函数为 σ C ( y ) = { y 1 2 2 y 1 , y 1 > 0 , 0 , y 1 = y 2 = 0 , ∞ , 其 它 . \boxed{\sigma_C(\mathbf{y})=\left\{\begin{array}{ll}\frac{y_1^2}{2y_1}, & y_1>0,\\0, & y_1=y_2=0,\\\infty, & 其它.\end{array}\right.} σC(y)=2y1y12,0,,y1>0,y1=y2=0,.

由引理1, σ C \sigma_C σC必定是闭凸函数. 但它在 ( y 1 , y 2 ) = ( 0 , 0 ) (y_1,y_2)=(0,0) (y1,y2)=(0,0)点处不连续. 事实上, 任取 α > 0 \alpha>0 α>0, 取路径 y 1 ( t ) = t 2 2 α , y 2 ( t ) = t ( t > 0 ) y_1(t)=\frac{t^2}{2\alpha},y_2(t)=t(t>0) y1(t)=2αt2,y2(t)=t(t>0), 我们就有 σ C ( y 1 ( t ) , y 2 ( t ) ) = α , \sigma_C(y_1(t),y_2(t))=\alpha, σC(y1(t),y2(t))=α,因此 σ C ( y 1 ( t ) , y 2 ( t ) ) → α , t → 0 + \sigma_C(y_1(t),y_2(t))\to\alpha,t\to0^+ σC(y1(t),y2(t))α,t0+. 这与 σ C ( 0 , 0 ) = 0 \sigma_C(0,0)=0 σC(0,0)=0矛盾. 下图展示了 σ C \sigma_C σC的图像. 其中的曲线表示的是函数的等高线.
在这里插入图片描述

4.5 单位单纯形的支撑函数

下面我们导出单位单纯形的支撑函数. 为此我们先做一些铺垫. 集合的支撑函数的一个重要性质是, 只要这些集合是闭凸的, 则它们的支撑函数是唯一确定的. 证明这个结论需要用到如下的严格分离定理 (strict separation theorem).

定理11 (严格分离定理) 设 C ⊂ E C\subset\mathbb{E} CE为非空闭凸集, y ∉ C \mathbf{y}\notin C y/C. 则存在 p ∈ E ∗ ∖ { 0 } \mathbf{p}\in\mathbb{E}^*\setminus\{\mathbf{0}\} pE{0}, α ∈ R \alpha\in\mathbb{R} αR使得 ⟨ p , y ⟩ > α \langle\mathbf{p,y}\rangle>\alpha p,y>α以及 ⟨ p , x ⟩ ≤ α , ∀ x ∈ C . \langle\mathbf{p,x}\rangle\le\alpha,\quad\forall\mathbf{x}\in C. p,xα,xC.

此定理的证明可以参看泛函分析中更加一般的凸集分离定理的证明. 在此省略.

引理4 A , B ⊂ E A,B\subset\mathbb{E} A,BE为非空闭凸集. 则 A = B A=B A=B当且仅当 σ A = σ B \sigma_A=\sigma_B σA=σB.

证明: 必要性是显然的. 下面证充分性. 设 σ A = σ B \sigma_A=\sigma_B σA=σB. 若 A ≠ B A\ne B A=B, 则不失一般性, 我们假设 ∃ y ∈ A : y ∉ B \exists\mathbf{y}\in A:\mathbf{y}\notin B yA:y/B. 由于 y ∉ B \mathbf{y}\notin B y/B B B B为非空闭凸集, 我们由严格分离定理就推出存在分离 y \mathbf{y} y B B B的超平面, 即 ∃ p ∈ E ∗ ∖ { 0 } , α > 0 \exists\mathbf{p}\in\mathbb{E}^*\setminus\{0\},\alpha>0 pE{0},α>0, 使得 ⟨ p , x ⟩ ≤ α < ⟨ p , y ⟩ , ∀ x ∈ B . \langle\mathbf{p},\mathbf{x}\rangle\le\alpha<\langle\mathbf{p,y}\rangle,\quad\forall\mathbf{x}\in B. p,xα<p,y,xB.左端对 x ∈ B \mathbf{x}\in B xB取上确界, 我们推出 σ B ( p ) ≤ α < ⟨ p , y ⟩ ≤ σ A ( p ) . \sigma_B(\mathbf{p})\le\alpha<\langle\mathbf{p,y}\rangle\le\sigma_A(\mathbf{p}). σB(p)α<p,yσA(p).这与 σ A = σ B \sigma_A=\sigma_B σA=σB是矛盾的. 得证.

在集合未必闭凸时, 我们有支撑函数在闭包 (closure) 和凸包下的不变性.

引理5 A ⊂ E A\subset\mathbb{E} AE非空. 则
(i) σ A = σ c l ( A ) \sigma_A=\sigma_{\mathrm{cl}(A)} σA=σcl(A);
(ii) σ A = σ c o n v ( A ) \sigma_A=\sigma_{\mathrm{conv}(A)} σA=σconv(A).

证明: (i) 由于 A ⊂ c l ( A ) A\subset\mathrm{cl}(A) Acl(A), 因此显然有 σ A ( y ) ≤ σ c l ( A ) ( y ) , ∀ y ∈ E ∗ . \sigma_A(\mathbf{y})\le\sigma_{\mathrm{cl}(A)}(\mathbf{y}),\quad\forall\mathbf{y}\in\mathbb{E}^*. σA(y)σcl(A)(y),yE.下面我们证明反向的情形. 令 y ∈ E ∗ \mathbf{y}\in\mathbb{E}^* yE. 由支撑函数的定义, 存在序列 { x k } k ≥ 1 ⊂ c l ( A ) \{\mathbf{x}^k\}_{k\ge1}\subset\mathrm{cl}(A) {xk}k1cl(A)使得 ⟨ y , x k ⟩ → σ c l ( A ) ( y ) . \langle\mathbf{y},\mathbf{x}^k\rangle\to\sigma_{\mathrm{cl}(A)}(\mathbf{y}). y,xkσcl(A)(y).由集合闭包的定义, 于是我们有序列 { z k } k ≥ 1 ⊂ A : ∥ z k − x k ∥ ≤ 1 k , ∀ k \{\mathbf{z}^k\}_{k\ge1}\subset A:\Vert\mathbf{z}^k-\mathbf{x}^k\Vert\le\frac{1}{k},\forall k {zk}k1A:zkxkk1,k, 因此 z k − x k → 0. \mathbf{z}^k-\mathbf{x}^k\to0. zkxk0.由于 z k ∈ A \mathbf{z}^k\in A zkA, 于是就有 σ A ( y ) ≥ ⟨ y , z k ⟩ = ⟨ y , x k ⟩ + ⟨ y , z k − x k ⟩ . \sigma_A(\mathbf{y})\ge\langle\mathbf{y,z}^k\rangle=\langle\mathbf{y,x}^k\rangle+\langle\mathbf{y,z}^k-\mathbf{x}^k\rangle. σA(y)y,zk=y,xk+y,zkxk. k k k取极限, 于是我们就有反向的不等式 σ A ( y ) ≥ σ c l ( A ) ( y ) + 0 = σ c l ( A ) ( y ) . \sigma_A(\mathbf{y})\ge\sigma_{\mathrm{cl}(A)}(\mathbf{y})+0=\sigma_{\mathrm{cl}(A)}(\mathbf{y}). σA(y)σcl(A)(y)+0=σcl(A)(y).
(ii) 因为 A ⊂ c o n v ( A ) A\subset\mathrm{conv}(A) Aconv(A), 因此显然有 σ A ( y ) ≤ σ c o n v ( A ) ( y ) , ∀ y ∈ E ∗ . \sigma_A(\mathbf{y})\le\sigma_{\mathrm{conv}(A)}(\mathbf{y}),\quad\forall\mathbf{y}\in\mathbb{E}^*. σA(y)σconv(A)(y),yE.下面我们证明反向不等式. 令 y ∈ E ∗ \mathbf{y}\in\mathbb{E}^* yE. 于是由支撑函数的定义, 存在序列 { x k } k ≥ 1 ⊂ c o n v ( A ) \{\mathbf{x}^k\}_{k\ge1}\subset\mathrm{conv}(A) {xk}k1conv(A)使得 ⟨ y , x k ⟩ → σ c o n v ( A ) ( y ) . \langle\mathbf{y},\mathbf{x}^k\rangle\to\sigma_{\mathrm{conv}(A)}(\mathbf{y}). y,xkσconv(A)(y).再由集合凸包的定义, 于是对 ∀ k \forall k k, ∃ z 1 k , z 2 k , … , z n k k ∈ A , λ k ∈ Δ n k \exists\mathbf{z}_1^k,\mathbf{z}_2^k,\ldots,\mathbf{z}_{n_k}^k\in A,\lambda^k\in\Delta_{n_k} z1k,z2k,,znkkA,λkΔnk使得 x k = ∑ i = 1 n k λ 1 k z i k . \mathbf{x}^k=\sum_{i=1}^{n_k}\lambda_1^k\mathbf{z}_i^k. xk=i=1nkλ1kzik.于是 ⟨ y , x k ⟩ = ⟨ y , ∑ i = 1 n k λ i k z i k ⟩ = ∑ i = 1 n k λ i k ⟨ y , z i k ⟩ ≤ ∑ i = 1 n k λ i k σ A ( y ) = σ A ( y ) , \langle\mathbf{y,x}^k\rangle=\left\langle\mathbf{y},\sum_{i=1}^{n_k}\lambda_i^k\mathbf{z}_i^k\right\rangle=\sum_{i=1}^{n_k}\lambda_i^k\langle\mathbf{y,z}_i^k\rangle\le\sum_{i=1}^{n_k}\lambda_i^k\sigma_A(\mathbf{y})=\sigma_A(\mathbf{y}), y,xk=y,i=1nkλikzik=i=1nkλiky,ziki=1nkλikσA(y)=σA(y),再对 k k k取极限, 就得到反向不等式. 证毕.

例14 (单位单纯形的支撑函数) 考虑实空间 E n \mathbb{E}^n En和其中的单位单纯形 Δ n = { x ∈ R n : e T x = 1 , x ≥ 0 } . \Delta_n=\{\mathbf{x}\in\mathbb{R}^n:\mathbf{e}^T\mathbf{x}=1,\mathbf{x}\ge\mathbf{0}\}. Δn={xRn:eTx=1,x0}.注意到单位单纯形可以写作 R n \mathbb{R}^n Rn中标准基的凸包, 即 Δ n = c o n v { e 1 , e 2 , … , e n } , \Delta_n=\mathrm{conv}\{\mathbf{e}_1,\mathbf{e}_2,\ldots,\mathbf{e}_n\}, Δn=conv{e1,e2,,en},于是由引理5的(ii)即得 σ Δ n ( y ) = σ { e 1 , … , e m } ( y ) = max ⁡ { ⟨ e 1 , y ⟩ , ⟨ e 2 , y ⟩ , … , ⟨ e n , y ⟩ } . \sigma_{\Delta_n}(\mathbf{y})=\sigma_{\{\mathbf{e}_1,\ldots,\mathbf{e}_m\}}(\mathbf{y})=\max\{\langle\mathbf{e}_1,\mathbf{y}\rangle,\langle\mathbf{e}_2,\mathbf{y}\rangle,\ldots,\langle\mathbf{e}_n,\mathbf{y}\rangle\}. σΔn(y)=σ{e1,,em}(y)=max{e1,y,e2,y,,en,y}.若默认 R n \mathbb{R}^n Rn中内积为点积, 则 σ Δ n ( y ) = max ⁡ { y 1 , y 2 , … , y n } . \boxed{\sigma_{\Delta_n}(\mathbf{y})=\max\{y_1,y_2,\ldots,y_n\}.} σΔn(y)=max{y1,y2,,yn}.

4.6 支撑函数的总结

C C C σ C ( y ) \sigma_C(\mathbf{y}) σC(y)假设条件
{ b 1 , … , b n } \{\mathbf{b}_1,\ldots,\mathbf{b}_n\} {b1,,bn} max ⁡ i = 1 , … , n ⟨ b i , y ⟩ \max_{i=1,\ldots,n}\langle\mathbf{b}_i,\mathbf{y}\rangle maxi=1,,nbi,y b i ∈ E \mathbf{b}_i\in\mathbb{E} biE
K K K δ K ∘ ( y ) \delta_{K^{\circ}}(\mathbf{y}) δK(y) K K K为锥
R + n \mathbb{R}^n_+ R+n δ R − n ( y ) \delta_{\mathbb{R}^n_-}(\mathbf{y}) δRn(y) E = R n \mathbb{E}=\mathbb{R}^n E=Rn
Δ n \Delta_n Δn max ⁡ { y 1 , y 2 , … , y n } \max\{y_1,y_2,\ldots,y_n\} max{y1,y2,,yn} E = R n \mathbb{E}=\mathbb{R}^n E=Rn
{ x ∈ R n : A x ≤ 0 } \{\mathbf{x}\in\mathbb{R}^n:\mathbf{Ax\le0}\} {xRn:Ax0} δ { A T λ : λ ∈ R + m } ( y ) \delta_{\{\mathbf{A}^T\lambda:\lambda\in\mathbb{R}^m_+\}}(\mathbf{y}) δ{ATλ:λR+m}(y) E = R n , A ∈ R m × n \mathbb{E}=\mathbb{R}^n,\mathbf{A}\in\mathbb{R}^{m\times n} E=Rn,ARm×n
{ x ∈ R n : B x = b } \{\mathbf{x}\in\mathbb{R}^n:\mathbf{Bx=b}\} {xRn:Bx=b} ⟨ y , x 0 ⟩ + δ R a n g e ( B T ) ( y ) \langle\mathbf{y,x}_0\rangle+\delta_{\mathrm{Range}(\mathbf{B}^T)}(\mathbf{y}) y,x0+δRange(BT)(y) E = R n , B ∈ R m × n , b ∈ R m , B x 0 = b \mathbb{E}=\mathbb{R}^n,\mathbf{B}\in\mathbb{R}^{m\times n},\mathbf{b}\in\mathbb{R}^m,\mathbf{Bx}_0=\mathbf{b} E=Rn,BRm×n,bRm,Bx0=b
B ∥ ⋅ ∥ [ 0 , 1 ] B_{\Vert\cdot\Vert}[\mathbf{0},1] B[0,1] ∥ y ∥ ∗ \Vert\mathbf{y}\Vert_* y-

  1. 有时简记为 R ∪ { ∞ } \mathbb{R}\cup\{\infty\} R{} [ − ∞ , ∞ ] [-\infty,\infty] [,]. ↩︎

  2. 注意从所谓 ℓ 0 \ell_0 0-范数的定义我们知道, ℓ 0 \ell_0 0-范数实际上不满足范数的定义: 它并不满足正齐次性的要求. 但由于这个术语被学术文献广泛使用, 因此我们也采用这种叫法. ↩︎

  3. 注意, 使用“扩展”这个词是基于上文提到的集合包含关系. ↩︎

  4. 在有限维空间情形等价于有界闭集. ↩︎

  5. 由(i)下有界, 所以必有下确界. ↩︎

  6. 此定理在数学分析中, 我们对连续函数的情形讨论过. 而上文提到, 全空间连续函数真包含于全空间闭函数, 因此此定理是数学分析中结论的推广. ↩︎

  7. 从命题1的(ii)我们知道, 凸的正常扩充实值函数是凸的实值函数的推广. ↩︎

  8. 这里按实值函数在凸集上凸性的定义理解. ↩︎

  9. 此不等式为以下Jensen不等式的特例: f ( ∑ i = 1 k λ i x i ) ≤ ∑ i = 1 k λ i f ( x i ) . f\left(\sum\limits_{i=1}^k\lambda_i\mathbf{x}_i\right)\le\sum_{i=1}^k\lambda_if(\mathbf{x}_i). f(i=1kλixi)i=1kλif(xi). ↩︎

  10. 可对比之前的保闭性运算. 本定理只列举部分满足要求的运算. ↩︎

  11. C C C是闭集时, 对 ∀ x ∉ C \forall\mathbf{x}\notin C x/C, 必有 d C ( x ) > 0 d_C(\mathbf{x})>0 dC(x)>0. ↩︎

  12. g g g不取 ∞ \infty 是显然的. ↩︎

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值