First Order Methods in Optimization Ch2. Extended Real-Valued Functions

最新推荐文章于 2022-09-23 20:44:47 发布

Learner Hu

最新推荐文章于 2022-09-23 20:44:47 发布

阅读量3.3k

点赞数 8

分类专栏： FOM in Optimization

原文链接：https://download.csdn.net/download/m0_37854871/11562555

版权

FOM in Optimization 专栏收录该内容

10 篇文章 74 订阅

订阅专栏

第二章: 扩充实值函数

文章目录

第二章: 扩充实值函数

1. 扩充实值函数和闭性

扩充实值函数 (extended real-valued function) 是定义在整个 $\mathbb{E}$ 上, 而取值在扩充实轴 $\mathbb{R}\cup\{\infty,-\infty\}$ ¹的函数. 为此, 我们先定义扩充实轴上的运算法则: $\begin{aligned}a+\infty=\infty+a&=\infty,\quad\forall a\in\mathbb{R},\\ a-\infty=-\infty+a&=-\infty,\quad\forall a\in\mathbb{R},\\ a\cdot\infty=\infty\cdot a&=\infty,\quad\forall a\in\mathbb{R}_+,\\ a\cdot(-\infty)=(-\infty)\cdot a&=-\infty,\quad\forall a\in\mathbb{R}_+,\\ a\cdot\infty=\infty\cdot a&=-\infty,\quad\forall a\in\mathbb{R}_-,\\ a\cdot(-\infty)=(-\infty)\cdot a&=\infty,\quad\forall a\in\mathbb{R}_-,\\ 0\cdot\infty=\infty\cdot0=0\cdot(-\infty)=(-\infty)\cdot0&=0.\end{aligned}$ 如果我们用极限来解释以上运算法则, 我们会发现其中唯一“不自然”的是最后一条. 在数学分析中, 我们称“ $0\cdot\infty$ ”为未定式. 但在讨论扩充实值函数时, 这样的规定是“适当的 (correct) ”.
我们也规定扩充实轴上实数和无穷大之间的序关系: $\begin{aligned}\infty&>a,\quad\forall a\in\mathbb{R}\cup\{-\infty\},\\-\infty&<a,\quad\forall a\in\mathbb{R}\cup\{\infty\}.\end{aligned}$ 对于一个扩充实值函数 $f:\mathbb{E}\to\mathbb{R}\cup\{\infty\}$ , 我们定义其有效域 (effective domain) $\mathrm{dom}(f)$ 为 $\mathrm{dom}(f)=\{\mathbf{x}\in\mathbb{E}:f(\mathbf{x})<\infty\}.$ 于此, 我们称满足 $\{x\in\mathbb{E}:f(\mathbf{x})=-\infty\}=\emptyset$ 且 $\mathrm{dom}(f)\not=\emptyset$ 的 $f$ 是正常函数 (proper function).
最简单的扩充实值函数是集合的指示函数 (indicator function).
例1 (指示函数) 对 $\forall C\subset\mathbb{E}$ , $C$ 的指示函数定义为如下的扩充实值函数: $\delta_{C}(\mathbf{x})=\left\{\begin{array}{ll}0, & \mathbf{x}\in C,\\\infty, & \mathbf{x}\notin C.\end{array}\right.$ 显然有 $\mathrm{dom}(\delta_{C})=C.$
扩充实值函数 $f$ 的上镜图 (epigraph) $\mathrm{epi}(f)$ 定义为 $\mathrm{epi}(f)=\{(\mathbf{x},y):f(\mathbf{x})\le y,\,\mathbf{x}\in\mathbb{E},\,y\in\mathbb{R}\}(\subset\mathbb{E}\times\mathbb{R}).$ 显然我们有 $P_{\mathbb{E}}(\mathrm{epi}(f))=\mathrm{dom}(f),$ 这里 $P$ 为投影映射.
闭函数 (closed function).
定义1 (闭函数) 我们称扩充实值函数 $f$ 是闭函数, 若它的上镜图 $\mathrm{epi}(f)$ 是闭集.
由定义直接可得, 集合 $C$ 的指示函数是闭函数当且仅当 $C$ 是闭集. 这是因为 $\mathrm{epi}(\delta_C)=C\times\mathbb{R}_+$ . 但这点对一般的闭函数不一定成立. 特别地, 存在闭函数, 使得其有效域不是个闭集.
例2 考虑扩充实值函数 $f$ : $f(x)=\left\{\begin{array}{ll}\frac{1}{x}, & x>0,\\\infty,&其他.\end{array}\right.$ 这样的 $f$ , 其有效域为开区间 $(0,\infty)$ , 而上镜图 $\mathrm{epi}(f)=\{(x,y):xy\ge1,x>0\}$ 则是个闭集. $f$ 的图像如下.

我们下面要介绍的下半连续性 (lower semicontinuity) 是与函数闭性等价的性质.
定义2 (下半连续性) 我们称扩充实值函数 $f$ 在 $\mathbf{x}\in\mathbb{E}$ 处下半连续, 若 $f(\mathbf{x})\le\liminf_{n\to\infty}f(\mathbf{x}_n)$ 对 $\forall \{\mathbf{x}_n\}_{n\ge1}\subset\mathbb{E}:\mathbf{x}_n\to\mathbf{x}$ 都是成立; 称 $f$ 是 $\mathbb{E}$ 上的下半连续函数, 若它在 $\mathbb{E}$ 上每个点处均下半连续.
为证明下半连续性和闭性的等价性, 我们引入水平集 (level set) 的概念. 对 $\forall\alpha\in\mathbb{R}$ , 扩充实值函数 $f$ 的 $\alpha$ -水平集定义为 $\mathrm{Lev}(f,\alpha)=\{\mathbf{x}\in\mathbb{E}:f(\mathbf{x})\le\alpha\}.$ 下面的定理1表明, 闭性、下半连续性和任意水平集是闭集是等价的.
定理1 (闭性、下半连续性和水平集是闭集的等价性) 令 $f:\mathbb{E}\to[-\infty,\infty]$ . 则下面三件事是等价的:
(i) $f$ 是下半连续函数;
(ii) $f$ 是闭函数;
(iii) 对 $\forall\alpha\in\mathbb{R}$ , 水平集 $\mathrm{Lev}(f,\alpha)$ 是闭集.
证明: (i) $\Rightarrow$ (ii) 设 $f$ 下半连续. 我们证明 $f$ 的上镜图 $\mathrm{epi}(f)$ 是闭集. 为此, 任取 $\{(\mathbf{x}_n,y_n)\}_{n\ge1}\subset\mathrm{epi}(f):(\mathbf{x}_n,y_n)\to(\mathbf{x}^*,y^*)$ . 于是对 $\forall n\ge1$ , $f(\mathbf{x}_n)\le y_n$ . 因此, 由 $f$ 在 $\mathbf{x}^*$ 处的下半连续性, 我们有 $f(\mathbf{x}^*)\le\liminf_{n\to\infty}f(\mathbf{x}_n)\le\liminf_{n\to\infty}y_n=y^*.$ 这就表明 $(\mathbf{x}^*,y^*)\in\mathrm{epi}(f)$ , 因此 $f$ 是闭函数.
(ii) $\Rightarrow$ (iii) 设 $f$ 是闭函数. 对 $\forall\alpha\in\mathbb{R}$ , 我们要证 $\mathrm{Lev}(f,\alpha)$ 是闭集. 若 $\mathrm{Lev}(f,\alpha)=\emptyset$ , 则得证. 不然, 取序列 $\{\mathbf{x}_n\}_{n\ge1}\subset\mathrm{Lev}(f,\alpha):\mathbf{x}_n\to\bar\mathbf{x}$ . 显然对 $\forall n$ , $(\mathbf{x}_n,\alpha)\in\mathrm{epi}(f)$ 且 $(\mathbf{x}_n,\alpha)\to(\bar\mathbf{x},\alpha)$ . 由上镜图的闭性, 我们有 $(\bar\mathbf{x},\alpha)\in\mathrm{epi}(f)\Rightarrow\bar\mathbf{x}\in\mathrm{Lev}(f,\alpha)$ .
(iii) $\Rightarrow$ (i) 设 $f$ 的所有水平集是闭集. 要证 $f$ 下半连续. 反证, 若不然, $f$ 不是下半连续的, 则 $\exists\mathbf{x}^*\in\mathbb{E},\{\mathbf{x}_n\}_{n\ge1}\subset\mathbb{E}:\mathbf{x}_n\to\mathbf{x}^*,\liminf_{n\to\infty}f(\mathbf{x}_n)<f(\mathbf{x}^*)$ . 取 $\alpha:\liminf_{n\to\infty}f(\mathbf{x})<\alpha<f(\mathbf{x}^*)$ . 则存在子列 $\{\mathbf{x}_{n_k}\}_{k\ge1}:f(\mathbf{x}_{n_k})\le\alpha,\forall k\ge1$ . 由水平集 $\mathrm{Lev}(f,\alpha)$ 的闭性以及 $\mathbf{x}_{n_k}\to\mathbf{x}^*$ , 我们知道 $f(\mathbf{x}^*)\le\alpha$ . 这与 $\alpha<f(\mathbf{x}^*)$ 矛盾! 于是 $f$ 下半连续. 证毕.
下面我们介绍保函数闭性的运算, 包括自变量的仿射变换、非负数乘组合以及多个函数的极大化.
定理2 (保闭性运算)
(i) 令 $\mathcal{A}:\mathbb{E}\to\mathbb{V}$ 为一线性映射, $\mathbf{b}\in\mathbb{E}$ , $f:\mathbb{V}\to[-\infty,\infty]$ 为扩充实值闭函数. 则函数 $g$ : $g(\mathbf{x})=f(\mathcal{A}(\mathbf{x})+\mathbf{b})$ 是闭函数;
(ii) 令 $f_1,f_2,\ldots,f_m:\mathbb{E}\to(-\infty,\infty]$ 为扩充实值闭函数, $\alpha_1,\alpha_2,\ldots,\alpha_m\in\mathbb{R}_+$ . 则函数 $f=\sum_{i=1}^m\alpha_if_i$ 是闭函数;
(iii) 令 $f_i:\mathbb{E}\to(-\infty,\infty],i\in I$ 为扩充实值闭函数, $I$ 为给定的指标集 (可以是无限集). 则函数 $f(\mathbf{x})=\max_{i\in I}f_i(\mathbf{x})$ 是闭函数.
证明: (i) 为证明 $g$ 是闭的, 取序列 $\{(\mathbf{x}_n,y_n)\}_{n\ge1}\subset\mathrm{epi}(g):(\mathbf{x}_n,y_n)\to(\mathbf{x}^*,y^*),\mathbf{x}^*\in\mathbb{E},y^*\in\mathbb{R}$ . 而 $\{(\mathbf{x}_n,y_n)\}_{n\ge1}\subset\mathrm{epi}(g)$ 可以等价地写作 $f(\mathcal{A}(\mathbf{x}_n)+\mathbf{b})\le y_n,\quad\forall n\ge1.$ 因此 $(\mathcal{A}(\mathbf{x}_n)+\mathbf{b},y_n)\in\mathrm{epi}(f)$ . 由于 $f$ 是闭的且 $\mathcal{A}(\mathbf{x}_n)+\mathbf{b}\to\mathcal{A}(\mathbf{x}^*)+\mathbf{b},y_n\to y^*$ (线性映射的连续性), 我们知道 $(\mathcal{A}(\mathbf{x}^*)+\mathbf{b},y^*)\in\mathrm{epi}(f)\Rightarrow f(\mathcal{A}(\mathbf{x}^*)+\mathbf{b})\le y^*\Rightarrow (\mathbf{x}^*,y^*)\in\mathrm{epi}(g).$ 这就证明 $g$ 是闭的.
(ii) 我们证明 $f$ 是下半连续的, 从而由定理1可得 $f$ 的闭性. 令 $\{\mathbf{x}_n\}_{n\ge1}:\mathbf{x}_n\to\mathbf{x^*}$ . 由 $f_i$ 的下半连续性, $f_i(\mathbf{x}^*)\le\liminf_{n\to\infty}f_i(\mathbf{x}_n).$ 上式左右同乘 $\alpha_i$ 并对下标 $i$ 累加可得 $\left(\sum_{i=1}^m\alpha_if_i\right)(\mathbf x^*)\le\sum_{i=1}^m\liminf_{n\to\infty}\alpha_if_i(\mathbf{x}_n)\le\liminf_{n\to\infty}\left(\sum_{i=1}^m\alpha_if_i\right)(\mathbf{x}_n).$ 由于上式对任意收敛于 $\mathbf{x}^*$ 的序列都是成立的, 因此我们就证明了 $f$ 的下半连续性.
(iii) 由于 $f_i$ 是闭的, 于是 $\mathrm{epi}(f)$ 是闭集. 由于任意多个闭集的交仍是闭集, 于是 $\mathrm{epi}(f)=\bigcap_{i\in I}\mathrm{epi}(f_i)$ 是闭集, 从而 $f$ 是闭的. 证毕.

2. 闭性与连续性

本节我们将说明函数闭性与连续性之间的关系: 一个扩充实值函数若在其有效域上是连续的且这个有效域是闭的, 则这个函数是闭的; 反之, 一个扩充实值函数是闭的且其有效域是闭的, 并不能推出这个函数在其有效域上连续. 前者可见下面的定理3, 后者我们将以反例说明.

定理3 设 $f:\mathbb{E}\to(-\infty,\infty]$ 在其有效域上是连续的且 $\mathrm{dom}(f)$ 是闭集. 则 $f$ 是闭函数.
证明: 为证明 $\mathrm{epi}(f)$ 是闭集, 取序列 $\{(\mathbf{x}_n,y_n)\}_{n\ge1}\subset\mathrm{epi}(f):(\mathbf{x}_n,y_n)\to(\mathbf{x}^*,y^*), \mathbf{x}^*\in\mathbb{E},y^*\in\mathbb{R}$ . 由于 $\{\mathbf{x}_n\}_{n\ge1}\subset\mathrm{dom}(f)$ , $\mathbf{x}_n\to\mathbf{x}^*$ 且 $\mathrm{dom}(f)$ 是闭集, 因此 $\mathbf{x}^*\in\mathrm{dom}(f)$ . 由上镜图的定义, 我们有对 $\forall n\ge1$ , $f(\mathbf{x}_n)\le y_n.$ 由 $f$ 在 $\mathrm{dom}(f)$ 上的连续性, 特别地, 在 $\mathbf{x}^*$ 处的连续性, 在上式两边对 $n$ 取极限后我们得到 $f(\mathbf{x}^*)\le y^*\Rightarrow(\mathbf{x}^*,y^*)\in\mathrm{epi}(f).$ 这就证明了上镜图的闭性.

上面定理3的一个特殊情形就是 $\mathrm{dom}(f)=\mathbb{E}$ , 即 $f$ 是实值函数. 则 $f$ 在 $\mathbb{E}$ 上连续即可推出 $f$ 是闭函数. 换句话说, $\{f:\mathrm{dom}(f)=\mathbb{E},f\in C(\mathbb{E})\}\subset\{f:\mathrm{dom}(f)=\mathbb{E},f在\mathbb{E}上是闭函数\}.$ 下面我们将说明这个包含是“真”的.

例3 ( $\ell_0$ -范数²) 考虑 $\ell_0$ -范数函数 $f:\mathbb{R}^n\to\mathbb{R}$ , 定义为 $f(\mathbf{x})=\Vert\mathbf{x}\Vert_0=\#\{i:x_i\not=0\}.$ 即 $\Vert\mathbf{x}\Vert_0$ 给出的是 $\mathbf{x}$ 中非零元素的数目. 这时 $f$ 的有效域是整个实空间 $\mathbb{R}^n$ . 而且 $f$ 还是闭函数. 事实上, 注意到 $f(\mathbf{x})=\sum_{i=1}^nI(x_i),$ 其中 $I:\mathbb{R}\to\{0,1\}$ 定义为 $I(y)=\left\{\begin{array}{ll}0, & y=0,\\1, & y\ne0.\end{array}\right.$ 考察 $I$ 的水平集 $\mathrm{Lev}(I,\alpha)=\left\{\begin{array}{ll}\emptyset, & \alpha<0,\\\{0\}, & \alpha\in[0,1),\\\mathbb{R}, & \alpha\ge1.\end{array}\right.$ 显然对 $\forall\alpha\in\mathbb{R}$ , 它都是闭集. 因此 $I$ 是闭函数, 而从定理2的(ii)我们知道, 闭函数的正组合仍然是闭函数. 因此 $f$ 就是闭的. 但 $f$ 显然不是连续函数.

下面我们再举一个有效域非整个 $\mathbb{E}$ 的例子.

例4 考虑如下定义的函数 $f_{\alpha}:\mathbb{R}\to(-\infty,\infty]$ , $f_{\alpha}(x)=\left\{\begin{array}{ll}\alpha, & x=0,\\x, & 0<x\le1,\\\infty, & 其它.\end{array}\right.$ 此函数是闭函数当且仅当 $\alpha\le0$ , 而它连续当且仅当 $\alpha=0$ . 因此, 函数 $f_{-0.1}$ (图示见下图) 就是闭但不连续的.
在这里插入图片描述

一些连续函数的性质是可以扩展³到闭函数的. 著名的Weierstrass定理是讲, 连续函数在非空紧集⁴上必取到最小值. 我们现在证明这个结论对闭函数也对.

定理4 (闭函数的Weierstrass定理) 设 $f:\mathbb{E}\to(-\infty,\infty]$ 是正常闭函数, $C$ 为满足 $C\cap\mathrm{dom}(f)\ne\emptyset$ 的紧集. 于是
(i) $f$ 在 $C$ 上下有界;
(ii) $f$ 在 $C$ 上取到最小值.

证明: (i) 反证, 设 $f$ 在 $C$ 上下无界. 则存在序列 $\{\mathbf{x}_n\}_{n\ge1}\subset C$ 使得 $\lim_{n\to\infty}f(\mathbf{x}_n)=-\infty.$ 由Bolzano-Weierstrass定理, 从 $C$ 是紧集可推出存在子列 $\{\mathbf{x}_{n_k}\}_{k\ge1}$ 收敛到 $\bar{\mathbf{x}}\in C$ . 由定理1我们知道, $f$ 下半连续, 因此 $f(\bar\mathbf{x})\le\liminf_{k\to\infty}f(\mathbf{x}_{n_k}),$ 这与前面的极限式矛盾.
(ii) 记 $f$ 在 $C$ 上的下确界⁵为 $f_{\mathrm{opt}}$ . 于是存在序列 $\{\mathbf{x}_n\}_{n\ge1}:f(\mathbf{x}_n)\to f_{\mathrm{opt}}$ . 如同(i), 存在子列 $\{\mathbf{x}_{n_k}\}_{k\ge1}:\mathbf{x}_{n_k}\to\bar\mathbf{x}\in C$ . 同样由 $f$ 的下半连续性, 我们得到 $f(\bar\mathbf{x})\le\lim_{k\to\infty}f(\mathbf{x}_{n_k})=f_{\mathrm{opt}}\Rightarrow f(\bar\mathbf{x})=f_{\mathrm{opt}}.$ 这说明 $f$ 在 $\bar\mathbf{x}$ 处取到在 $C$ 上的最小值.

上述定理4在 $C$ 非紧时是不一定成立的. 但如果 $f$ 具有强制性 (coerciveness), 则 $C$ 只需是闭集即可得到相同的结论. 为此, 我们先给出强制性的定义.

定义3 (强制性) 我们称正常函数 $f:\mathbb{E}\to(-\infty,\infty]$ 是强制的, 若 $\lim_{\Vert\mathbf{x}\Vert\to\infty}f(\mathbf{x})=\infty.$

下面我们证明: 强制的闭函数在任何与有效域有非空交的闭集上均能取到最小值.

定理5 (强制性下的最值定理⁶) 设 $f:\mathbb{E}\to(-\infty,\infty]$ 是正常强制闭函数, $S\subset\mathbb{E}$ 为满足 $S\cup\mathrm{dom}(f)\ne\emptyset$ 的非空闭集. 于是 $f$ 在 $S$ 上必能取到最小值.

证明: 任取 $\mathbf{x}_0\in S\cap\mathrm{dom}(f)$ . 由 $f$ 的强制性, 存在 $M > 0$ 使得 $f(\mathbf{x})>f(\mathbf{x}_0),\quad\forall\mathbf{x}:\Vert\mathbf{x}\Vert>M.$ 因为 $f_{\mathrm{opt}}\le f(\mathbf{x}_0)$ , 而 $S\cap B_{\Vert\cdot\Vert}[\mathbf{0},M]$ 紧且非空 (至少有 $\mathbf{x}_0$ ), 于是由定理4我们知道 $f$ 在 $S\cap B_{\Vert\cdot\Vert}[\mathbf{0},M]$ 上必取到最小值, 从而在 $S$ 上必取到最小值. 证毕.

3. 凸函数

3.1 定义与基本性质

类似于闭性, 扩充实值函数的凸性 (convexity) 也是用上镜图定义的.

定义4 (凸函数 (convex functions)) 我们称扩充实值函数 $f:\mathbb{E}\to[-\infty,\infty]$ 是凸函数, 若 $\mathrm{epi}(f)$ 是凸集.

下面我们给出正常扩充实值函数是凸函数的几种等价说法.

命题1 设 $f:\mathbb{E}\to(-\infty,\infty]$ 是正常扩充实值函数, 则以下三件事是等价的⁷:
(i) $f$ 是凸函数;
(ii) $\mathrm{dom}(f)$ 是凸集, 且 $\left.f\right|_{\mathrm{dom}(f)}$ 在 $\mathrm{dom}(f)$ 上是凸函数⁸;
(iii) $f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y}),\quad\forall\mathbf{x},\mathbf{y}\in\mathbb{E},\lambda\in[0,1]$ ⁹;
(iv) $\mathrm{dom}(f)$ 是凸集, 且(iii)对 $\forall\mathbf{x},\mathbf{y}\in\mathrm{dom}(f),\lambda\in[0,1]$ 成立.

证明: (i) $\Rightarrow$ (ii) 为证 $\mathrm{dom}(f)$ 是凸集, 任取 $\mathbf{x,y}\in\mathrm{dom}(f)$ , 则 $(\mathbf{x},f(\mathbf{x})),(\mathbf{y},f(\mathbf{y}))\in\mathrm{epi}(f)$ . 由 $\mathrm{epi}(f)$ 的凸性, 我们知道 $(\lambda\mathbf{x}+(1-\lambda)\mathbf{y},\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y}))\in\mathrm{epi}(f),\forall\lambda\in[0,1].$ 从而 $\lambda\mathbf{x}+(1-\lambda)\mathbf{y}\in\mathrm{dom}(f),\forall\lambda\in[0,1]$ . 这就证明了 $\mathrm{dom}(f)$ 是凸集. 由上式我们还可以推出 $f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y}),\forall\mathbf{x,y}\in\mathrm{dom}(f),\lambda\in[0,1].$ 这就证明了 $\left.f\right|_{\mathrm{dom}(f)}$ 是凸函数.
(ii) $\Rightarrow$ (iii) 由于 $\left.f\right|_{\mathrm{dom}(f)}$ 是凸函数是凸函数, 因此(iii)对 $\forall\mathbf{x,y}\in\mathrm{dom}(f),\lambda\in[0,1]$ 是成立的. 若 $\mathbf{x},\mathbf{y}$ 至少有一个在 $\mathbb{E}\setminus\mathrm{dom}(f)$ 中, 则(iii)显然成立.
(iii) $\Rightarrow$ (iv) 取 $\mathbf{x,y}\in\mathrm{dof}(f)$ 即可证明 $\mathrm{dom}(f)$ 是凸集. 而第二句话则显然成立.
(iv) $\Rightarrow$ (i) 为证 $f$ 是凸函数, 任取 $(\mathbf{x},\alpha),(\mathbf{y},\beta)\in\mathrm{epi}(f)$ . 于是 $f(\lambda\mathbf{x}+(1-\lambda)\mathbf{y})\le\lambda f(\mathbf{x})+(1-\lambda)f(\mathbf{y})\le\lambda\alpha+(1-\lambda)\beta,\forall\lambda\in[0,1],$ 其中第一个不等式由 $\mathrm{dom}(f)$ 是凸集以及满足不等式得出, 第二个不等式则由上镜图的定义得出. 因此 $(\lambda\mathbf{x}+(1-\lambda)\mathbf{y},\lambda\alpha+(1-\lambda)\beta)\in\mathrm{epi}(f),\forall\lambda\in[0,1]$ . 这就证明了 $\mathrm{epi}(f)$ 是凸集.

定理6 (保凸性运算)¹⁰
(i) 设 $\mathcal{A}:\mathbb{E}\to\mathbb{V}$ 为线性映射, $\mathbf{b}\in\mathbb{V}$ , $f:\mathbb{v}\to(-\infty,\infty]$ 为扩充实值凸函数. 则如下定义的扩充实值函数 $g:\mathbb{E}\to(-\infty,\infty]$ $g(\mathbf{x})=f(\mathcal{A}(\mathbf{x})+\mathbf{b})$ 是凸函数;
(ii) 设 $f_1,f_2,\ldots,f_m:\mathbb{E}\to(-\infty,\infty]$ 为扩充实值凸函数, $\alpha_1,\alpha_2,\ldots,\alpha_m\in\mathbb{R}_+$ . 则函数 $\sum_{i=1}^m\alpha_if_i$ 是凸函数;
(iii) 设 $f_i:\mathbb{E}\to(-\infty,\infty],i\in I$ 为扩充实值凸函数, 其中 $I$ 为给定指标集. 则函数 $f(\mathbf{x})=\max_{i\in I}f_i(\mathbf{x})$ 是凸函数.

证明以上三条时只需注意两点:

以上三条对于定义在凸集上的实值凸函数是显然的;
命题1的(ii).

详细证明略去.

例5 设 $\mathbb{E}$ 为欧式空间, $C\subset\mathbb{E}$ 为非空集合. 考虑函数 $\varphi_C(\mathbf{x})=\frac{1}{2}\left(\Vert\mathbf{x}\Vert^2-d_C^2(\mathbf{x})\right),$ 其中 $d_C(\mathbf{x})$ 为如下定义的 $\mathbf{x}$ 到 $C$ 的距离函数 (distance function)¹¹: $d_C(\mathbf{x})=\min_{\mathbf{y}\in C}\Vert\mathbf{x}-\mathbf{y}\Vert.$ 我们将说明不论 $C$ 是凸集与否, $\varphi_C(\mathbf{x})$ 必定是凸函数. 注意到 $d_C^2(\mathbf{x})=\min_{\mathbf{y}\in C}\Vert\mathbf{x}-\mathbf{y}\Vert^2=\Vert\mathbf{x}\Vert^2-\max_{\mathbf{y}\in C}\left[2\langle\mathbf{y},\mathbf{x}\rangle-\Vert\mathbf{y}\Vert^2\right].$ 因此 $\varphi_C(\mathbf{x})=\max_{\mathbf{y}\in C}\left[\langle\mathbf{y},\mathbf{x}\rangle-\frac{1}{2}\Vert\mathbf{y}\Vert^2\right].$ 固定 $\mathbf{y}$ , 内部的 $\langle\mathbf{y},\mathbf{x}\rangle-\frac{1}{2}\Vert\mathbf{y}\Vert^2$ 是 $\mathbf{x}$ 的仿射函数 (从而使凸函数), 因此由定理6的(iii), 我们推出 $\varphi_C(\mathbf{x})$ 是凸函数.

下面我们再介绍一个保凸性的运算: 联合凸函数的部分极小化 (partial minimization of jointly convex functions).

定理7 (部分极小化下的凸性) 设 $f:\mathbb{E}\times\mathbb{V}\to(-\infty,\infty]$ 为满足如下性质的凸函数: $\forall\mathbf{x}\in\mathbb{E},\exists\mathbf{y}\in\mathbb{V}, \mathrm{s.t.}\,f(\mathbf{x},\mathbf{y})<\infty.$ 令 $g:\mathbb{E}\to[-\infty,\infty)$ ¹²定义为 $g(\mathbf{x})\equiv\min_{\mathbf{y}\in\mathbb{E}}f(\mathbf{x},\mathbf{y}).$ 于是 $g$ 是凸函数.

证明: 取 $\mathbf{x}_1,\mathbf{x}_2\in\mathbb{E},\lambda\in[0,1]$ . 为证明 $g$ 是凸函数, 由命题1的(iii), 我们等价地证明 $g(\lambda\mathbf{x}_1+(1-\lambda)\mathbf{x}_2)\le\lambda g(\mathbf{x}_1)+(1-\lambda)g(\mathbf{x}_2).$ 这在 $\lambda\in\{0,1\}$ 是显然的. 因此我们设 $\lambda\in(0,1)$ . 我们分两种情形讨论.
情形1: 设 $g(\mathbf{x}_1),g(\mathbf{x}_2)>-\infty$ . 任取 $\epsilon>0$ , 于是存在 $\mathbf{y}_1,\mathbf{y}_2\in\mathbb{V}$ 使得 $\begin{aligned}f(\mathbf{x}_1,\mathbf{y}_1)&\le g(\mathbf{x}_1)+\epsilon,\\f(\mathbf{x}_2,\mathbf{y}_2)&\le g(\mathbf{x}_2)+\epsilon.\end{aligned}$ 由 $f$ 的凸性, 我们有 $\begin{aligned}f(\lambda\mathbf{x}_1+(1-\lambda)\mathbf{x}_2,\lambda\mathbf{y}_1+(1-\lambda)\mathbf{y}_2)&\le\lambda f(\mathbf{x}_1,\mathbf{y}_1)+(1-\lambda)f(\mathbf{x}_2,\mathbf{y}_2)\\&\le\lambda(g(\mathbf{x}_1)+\epsilon)+(1-\lambda)(g(\mathbf{x}_2)+\epsilon)\\&=\lambda g(\mathbf{x}_1)+(1-\lambda)g(\mathbf{x}_2)+\epsilon.\end{aligned}$ 而由 $g$ 的定义, 我们有 $g(\lambda\mathbf{x}_1+(1-\lambda)\mathbf{x}_2)\le\lambda g(\mathbf{x}_1)+(1-\lambda)g(\mathbf{x}_2)+\epsilon.$ 由于上式对 $\forall\epsilon>0$ 均成立, 于是我们得证.
情形2: 设 $g(\mathbf{x}_1),g(\mathbf{x}_2)$ 二者至少有一个取到 $-\infty$ . 不失一般性, 设 $g(\mathbf{x}_1)=-\infty$ . 于是我们只需证明 $g(\lambda\mathbf{x}_1+(1-\lambda)\mathbf{y})=-\infty$ . 对 $\forall M<0$ , 由于 $g(\mathbf{x}_1)=-\infty$ , 因此存在 $\mathbf{y}_1\in\mathbb{V}$ 使得 $f(\mathbf{x}_1,\mathbf{y}_1)\le M.$ 由条件可知, 存在 $\mathbf{y}_2\in\mathbb{V}$ 使得 $f(\mathbf{x}_2,\mathbf{y}_2)<\infty$ .利用 $f$ 的凸性, 我们得到 $\begin{aligned}f(\lambda\mathbf{x}_1+(1-\lambda)\mathbf{x}_2,\lambda\mathbf{y}_1+(1-\lambda)\mathbf{y}_2)&\le\lambda f(\mathbf{x}_1,\mathbf{y}_1)+(1-\lambda)f(\mathbf{x}_2,\mathbf{y}_2)\\&\le\lambda M+(1-\lambda)f(\mathbf{x}_2,\mathbf{y}_2).\end{aligned}$ 于是再次由 $g$ 的定义, $g(\lambda\mathbf{x}_1+(1-\lambda)\mathbf{x}_2)\le\lambda M+(1-\lambda)f(\mathbf{x}_2,\mathbf{y}_2).$ 对上式取 $\lambda=1$ 并令 $M\to-\infty$ , 即可得证.

3.2 极小卷积

设 $h_1,h_2:\mathbb{E}\to(-\infty,\infty]$ 为两个正常函数. 则 $h_1,h_2$ 的极小卷积 (infimal convolution) $h_1\square h_2$ 定义为 $(h_1\square h_2)(\mathbf{x})\equiv\min_{\mathbf{u}\in\mathbb{E}}\{h_1(\mathbf{u})+h_2(\mathbf{x}-\mathbf{u})\}.$ 将定理7直接应用到这里, 我们可得一个正常凸函数和一个实值凸函数的极小卷积总是凸函数.

定理8 (极小卷积的凸性) 设 $h_1:\mathbb{E}\to(-\infty,\infty]$ 为一正常凸函数, $h_2:\mathbb{E}\to\mathbb{R}$ 为一实值凸函数. 则 $h_1\square h_2$ 是凸函数.

证明: 定义 $f(\mathbf{x},\mathbf{y})\equiv h_1(\mathbf{y})+h_2(\mathbf{x}-\mathbf{y})$ . $h_1,h_2$ 的凸性可推出 $f$ 的凸性. 另外, 显然任取 $\mathbf{x}\in\mathbb{E}$ , 总存在 $\mathbf{y}\in\mathrm{dom}(h_1)$ , 使得 $f(\mathbf{x},\mathbf{y})<\infty$ . 因此由定理7, 极小卷积 $h_1\square h_2$ 作为 $f(\cdot,\cdot)$ 的对第二自变量的部分极小化, 是一个凸函数.

例6 (距离函数的凸性) 设 $C\subset\mathbb{E}$ 为一非空凸集. 于是距离函数可以表示成如下的极小卷积: $d_C(\mathbf{x})=\min_{\mathbf{y}}\{\Vert\mathbf{x}-\mathbf{y}\Vert:\mathbf{y}\in C\}=\min_{\mathbf{y}\in\mathbb{E}}\{\delta_{C}(\mathbf{y})+\Vert\mathbf{x}-\mathbf{y}\Vert\}=(\delta_C\square h_1)(\mathbf{x}),$ 其中 $h_1(\cdot)=\Vert\cdot\Vert$ . 由于 $\delta_C$ 为正常凸函数, $h_1$ 为实值凸函数 (范数的三角不等式性和正齐次性), 因此定理8告诉我们 $d_C$ 是凸函数.

3.3 凸函数的连续性

众所周知, 凸函数在其定义域的内点处是连续的. 下面我们给出一个更强的结论: 凸函数的局部Lipschitz连续性.

定理9 (凸函数的局部Lipschitz连续性) 设 $f:\mathbb{E}\to(-\infty,\infty]$ 是凸函数, $\mathbf{x}_0\in\mathrm{int}(\mathrm{dom}(f))$ . 于是存在 $\epsilon>0,L>0$ 使得 $B[\mathbf{x}_0,\epsilon]\subset \mathrm{dom}(f)$ 且 $|f(\mathbf{x})-f(\mathbf{x}_0)|\le L\Vert\mathbf{x}-\mathbf{x}_0\Vert,\quad\forall\mathbf{x}\in B[\mathbf{x}_0,\epsilon].$

证明: 由于 $\mathbf{x}_0\in\mathrm{int}(\mathrm{dom}(f))$ , 于是存在 $\epsilon>0$ , 使得 $B_{\Vert\cdot\Vert_{\infty}}[\mathbf{x}_0,\epsilon]\subset\mathrm{dom}(f)$ . 而对 $\forall\mathbf{x}\in\mathbb{E}$ , $\Vert\mathbf{x}\Vert_{\infty}\le\Vert\mathbf{x}\Vert_2=\Vert\mathbf{x}\Vert$ . 于是 $B[\mathbf{x}_0,\epsilon]=B_{\Vert\cdot\Vert_2}[\mathbf{x}_0,\epsilon]\subset B_{\Vert\cdot\Vert_{\infty}}[\mathbf{x}_0,\epsilon]\subset\mathrm{dom}(f).$ 下面我们先证明在 $B[\mathbf{x}_0,\epsilon]$ 中, $f$ 是有界的. 任取 $\forall\mathbf{x}\in B[\mathbf{x}_0,\epsilon]\subset B_{\Vert\cdot\Vert_{\infty}}[\mathbf{x}_0,\epsilon]$ . 由于 $B_{\Vert\cdot\Vert_{\infty}}[\mathbf{x}_0,\epsilon]$ 有 $2^n$ 个极点 $\{\mathbf{v}_i\}_{i=1}^{2^n}=\{\mathbf{x}_0+\epsilon\mathbf{w}_i\}_{i=1}^{2^n}$ , 其中 $\mathbf{w}_i\in\{-1,1\}^n$ , 于是利用Krein-Milman定理, 我们推出存在 $\mathbf{\lambda}\in\Delta_{2^n}$ , 使得 $\mathbf{x}=\sum_{i=1}^{2^n}\lambda_i\mathbf{v}_i$ . 再用Jensen不等式, 我们有 $f(\mathbf{x})\le\sum_{i=1}^{2^n}\lambda_if(\mathbf{v}_i)\le\sum_{i=1}^{2^n}|f(\mathbf{v}_i)|\triangleq M.$ 下面我们证明定理的结论: 任取 $\mathbf{x}\in B[\mathbf{x}_0,\epsilon]$ , 记 $\mathbf{z}=\mathbf{x}_0+\frac{1}{\alpha}(\mathbf{x}-\mathbf{x}_0),$ 其中 $\alpha=\frac{\Vert\mathbf{x}-\mathbf{x}_0\Vert}{\epsilon}$ . 于是易知 $\alpha\in[0,1]$ 且 $\mathbf{z}\in B[\mathbf{x}_0,\epsilon]$ . 因此我们有 $\begin{aligned}\alpha M\ge \alpha f(\mathbf{z})&\ge f(\mathbf{x})-(1-\alpha)f(\mathbf{x}_0)\\&= f(\mathbf{x})-f(\mathbf{x}_0)+\alpha f(\mathbf{x}_0).\end{aligned}$ 其中第二个不等号来自Jensen不等式. 于是我们就得到 $f(\mathbf{x})-f(\mathbf{x}_0)\le\alpha(M-f(\mathbf{x}_0))=\frac{M-f(\mathbf{x}_0)}{\epsilon}\Vert\mathbf{x}-\mathbf{x}_0\Vert.$ 下面我们证明另一边. 记 $\mathbf{u}=\mathbf{x}_0+\frac{1}{\alpha}(\mathbf{x}_0-\mathbf{x}).$ 类似地, $\mathbf{u}\in B[\mathbf{x}_0,\epsilon]$ . 因此 $\begin{aligned} M\ge f(\mathbf{u})&\ge \frac{\alpha+1}{\alpha}\left(f(\mathbf{x}_0)-\frac{1}{\alpha+1}f(\mathbf{x})\right)\\&=f(\mathbf{x}_0)+\frac{1}{\alpha}\left(f(\mathbf{x}_0)-f(\mathbf{x})\right).\end{aligned}$ 从而有 $f(\mathbf{x}_0)-f(\mathbf{x})\le\alpha(M-f(\mathbf{x}_0))=\frac{M-f(\mathbf{x}_0)}{\epsilon}\Vert\mathbf{x}-\mathbf{x}_0\Vert.$ 结合上面的讨论, 我们就得到 $|f(\mathbf{x}_0)- f(\mathbf{x})|\le\frac{M- f(\mathbf{x}_0)}{\epsilon}\Vert\mathbf{x-x_0}\Vert\triangleq L\Vert\mathbf{x-x_0}\Vert.$
证毕.

凸函数在边界点是不必连续的. 甚至在函数是闭凸的时, 这一点依然得不到保障 (见后文的例13). 但下面我们将说明单变量的闭凸函数在其有效域上一定是连续函数.

定理10 (单变量闭凸函数的连续性) 设 $f:\mathbb{R}\to(-\infty,\infty]$ 为正常的闭凸函数. 则 $f$ 在 $\mathrm{dom}(f)$ 上是连续的.

证明: 由于 $f$ 是凸函数, 因此其有效域为某个区间 $I=\mathrm{dom}(f)$ . 若 $\mathrm{int}(I)=\emptyset$ , 则 $I$ 为单点集, $f$ 在其上的连续性是显然的. 于是设 $\mathrm{int}(I)\ne\emptyset$ . 定理9告诉我们, $f$ 在 $\mathrm{int}(I)$ 上连续. 因此我们只需证明 $f$ 在 $I$ 的边界点 (如果存在的话) 上连续. 为此, 不失一般性, 我们假设 $I$ 有左端点 $a$ . 下面证明 $f$ 在 $a$ 处的右连续性. 首先证明 $\lim_{t\to a^+}f(t)$ 存在. 任取 $c\in I:c>a$ , 定义函数 $g(t)=\frac{f(c-t)-f(c)}{t}.$ 显然 $g$ 是定义在 $(0, c - a]$ 上的. 我们将证明 $g$ 在 $(0, c - a]$ 上非减且上有界. 为此, 任取 $0<t\le s\le c-a$ . 于是 $c-t=\left(1-\frac{t}{s}\right)c+\frac{t}{s}(c-s),$ 因此由 $f$ 的凸性可得 $f(c-t)\le\left(1-\frac{t}{s}\right)f(c)+\frac{t}{s}f(c-s),$ 稍作整理后, 可得 $\frac{f(c-t)-f(c)}{t}\le\frac{f(c-s)-f(c)}{s}.$ 因此 $g(t)\le g(s),\quad\forall 0<t\le s\le c-a.$ 即 $g$ 在 $(0, c - a]$ 上非减. 进一步地, $g(t)\le g(c-a),\quad\forall t\in(0,c-a].$ 这就证明了 $g$ 在 $(0, c - a]$ 上有界. 由数学分析我们可推出 $\lim_{t\to(c-a)^-}g(t)$ 存在, 记为 $\ell$ . 因此 $f(c-t)=f(c)+tg(t)\to f(c)+(c-a)\ell,$ $\lim_{t\to a^+}f(t)$ 也存在且等于 $f(c)+(c-a)\ell$ . 由 $g$ 的上有界, 我们可得 $f(c-t)=f(c)+tg(t)\le f(c)+(c-a)g(c-a)=f(a)\Rightarrow\lim_{t\to a^+}f(t)\le f(a).$ 另一方面, 因 $f$ 是凸函数等价于 $f$ 下半连续, 所以又有 $f(a)\le\lim_{t\to a^+}f(t)$ . 所以就有 $f(a)=\lim_{t\to a^-}f(t)$ , 证明了 $f$ 在 $a$ 处的右连续性. 证毕.

4. 支撑函数

设 $C\subset\mathbb{E}$ 为非空集合. 则 $C$ 的支撑函数 (support function) 为如下定义的 $\sigma_C:\mathbb{E}^*\to(-\infty,\infty]$ , $\sigma_C(\mathbf{y})=\max_{\mathbf{x}\in C}\langle\mathbf{y},\mathbf{x}\rangle.$ 固定 $x$ , 则线性函数 $\mathbf{y}\mapsto\langle\mathbf{y},\mathbf{x}\rangle$ 显然是闭凸函数. 因此我们由定理2的(iii)和定理6的(iii)可知, 支撑函数也是闭凸函数. 而这与 $C$ 是闭或是凸集与否无关.

引理1 (支撑函数的闭凸性) 设 $C\subset\mathbb{E}$ 为一非空集合. 则 $\sigma_C$ 为闭凸函数.

这里注意到, $\sigma_C$ 是定义在 $\mathbb{E}^*$ 上的函数. 而之前我们说过 $\mathbb{E}$ 和 $\mathbb{E}^*$ 在元素上可以视作相同. 因此, $\sigma_C$ 定义在 $\mathbb{E}$ 还是 $\mathbb{E}^*$ 上从元素的对应角度上没有差别. 但如果涉及到了范数, 我们就必须使用对偶范数 (参见例12).
下面我们简单列举支撑函数的一些性质. 在这之前我们给出两个集合运算律: 给定属于同一空间的两集合 $A, B$
(i) Minkowski和: $A+B=\{\mathbf{a}+\mathbf{b}:\mathbf{a}\in A,\mathbf{b}\in B\}.$
(ii) 数乘: $\forall\alpha\in\mathbb{R}$ , $\alpha A=\{\alpha\mathbf{a}:\mathbf{a}\in A\}.$

引理2 (支撑函数的性质) 对任意非空集合 $C\subset\mathbb{E}$ ,
(i) (正齐次性) 对 $\forall\mathbf{y}\in\mathbb{E}^*$ , $\alpha\ge0$ , $\sigma_C(\alpha\mathbf{y})=\alpha\sigma_C(\mathbf{y}).$
(ii) (次可加性 (subadditivity)) 对 $\forall\mathbf{y}_1,\mathbf{y}_2\in\mathbb{E}^*$ , $\sigma_C(\mathbf{y}_1+\mathbf{y}_2)\le\sigma_C(\mathbf{y}_1)+\sigma_C(\mathbf{y}_2).$
(iii) 对 $\forall\mathbf{y}\in\mathbb{E}^*$ , $\alpha\ge0$ , $\sigma_{\alpha C}(\mathbf{y})=\alpha\sigma_C(\mathbf{y}).$
(iv) 对任意非空集合 $A,B\in\mathbb{E},\mathbf{y}\in\mathbb{E}^*$ , $\sigma_{A+B}(\mathbf{y})=\sigma_A(\mathbf{y})+\sigma_B(\mathbf{y}).$

证明: 我们仅证明(iv). $\begin{aligned}\sigma_{A+B}(\mathbf{y})&=\max_{\mathbf{x}\in A+B}\langle\mathbf{y},\mathbf{x}\rangle=\max_{\mathbf{x}_1\in A,\mathbf{x}_2\in B}\langle\mathbf{y},\mathbf{x}_1+\mathbf{x}_2\rangle\\&=\max_{\mathbf{x}_1\in A,\mathbf{x}_2\in B}[\langle\mathbf{y},\mathbf{x}_1\rangle+\langle\mathbf{y},\mathbf{x}_2\rangle]=\max_{\mathbf{x}_1\in A}\langle\mathbf{y},\mathbf{x}_1\rangle+\max_{\mathbf{x}_2\in B}\langle\mathbf{y},\mathbf{x}_2\rangle\\&=\sigma_A(\mathbf{y})+\sigma_B(\mathbf{y}).\end{aligned}$

下面我们通过举例向读者展示一些具体的支撑函数.

4.1 有限集的支撑函数

例7 (有限集的支撑函数) 设 $C=\{\mathbf{b}_1,\mathbf{b}_2,\ldots,\mathbf{b}_m\},$ 其中 $\mathbf{b}_1,\mathbf{b}_2,\ldots,\mathbf{b}_m\in\mathbb{E}$ . 于是 $\boxed{\sigma_C(\mathbf{y})=\max\{\langle\mathbf{b}_1,\mathbf{y}\rangle,\langle\mathbf{b}_2,\mathbf{y}\rangle,\ldots,\langle\mathbf{b}_m,\mathbf{y}\rangle\}.}$

4.2 锥的支撑函数

例8 (锥的支撑函数) 设 $K\subset\mathbb{E}$ 为锥. 定义 $K$ 的极锥 (polar cone) 为 $K^{\circ}=\{\mathbf{y}\in\mathbb{E}^*:\langle\mathbf{y},\mathbf{x}\rangle\le0,\forall\mathbf{x}\in K\}.$ 即(从 $\mathbb{E}=\mathbb{E}^*$ 的观点看)极锥 $K^{\circ}$ 包含了那些与 $K$ 中任意向量成钝角的那些向量. 我们下面证明 $\boxed{\sigma_K(\mathbf{y})=\delta_{K^{\circ}}(\mathbf{y}).}$ 事实上, 若 $\mathbf{y}\in K^{\circ}$ , 则 $\langle\mathbf{y},\mathbf{x}\rangle\le0,\forall\mathbf{x}\in K$ ; 特别地, 当 $\mathbf{x}=0$ 时, $\langle\mathbf{y},\mathbf{x}\rangle=0$ . 因此 $\sigma_K(\mathbf{y})=\max_{\mathbf{x}\in K}\langle\mathbf{y,x}\rangle=0.$ 而若 $\mathbf{y}\notin K^{\circ}$ , 则存在 $\tilde\mathbf{x}\in K$ 使得 $\langle\mathbf{y},\tilde\mathbf{x}\rangle>0$ . 由于 $\lambda\tilde\mathbf{x}\in K,\forall\lambda\ge0$ , 因此我们有 $\sigma_K(\mathbf{y})\ge\langle\mathbf{y},\lambda\tilde\mathbf{x}\rangle=\lambda\langle\mathbf{y},\tilde\mathbf{x}\rangle,\quad\forall\lambda\ge0.$ 令 $\lambda\to\infty$ , 我们就推出 $\sigma_K(\mathbf{y})=\infty,\forall\mathbf{y}\notin K^{\circ}$ . 得证.

例9 (非负象限的支撑函数) 考虑实空间 $\mathbb{E}=\mathbb{R}^n$ . 作为例8的特殊情形, 由于 $\left(\mathbb{R}^n_+\right)^{\circ}=\mathbb{R}^n_-$ , 因此例8的结论变成 $\boxed{\sigma_{\mathbb{R}^n_+}(\mathbf{y})=\delta_{\mathbb{R}^n_-}(\mathbf{y}).}$

下面我们讨论凸多面体锥 (convex polyhedral cone) 的支撑函数. 为此, 我们先证明一个择一性定理——Farkas引理 (Farkas’s lemma).

引理3 (Farkas引理——第二形式) 设 $\mathbf{c}\in\mathbb{R}^n,\mathbf{A}\in\mathbb{R}^{m\times n}$ . 于是下面两件事是等价的:
(i) 从 $\mathbf{Ax}\le\mathbf{0}$ 可推出 $\mathbf{c}^T\mathbf{x}\le0$ ;
(ii) 存在 $\mathbf{y}\in\mathbb{R}^m_+$ , 使得 $\mathbf{A}^T\mathbf{y}=\mathbf{c}$ .

证明: 从(ii)证(i)是显然的. 下面我们用反证法证明反方向. 若不然, 由原始形式的Farkas引理可知, 存在 $\mathbf{d}\in\mathbb{R}^n$ , 使得 $\mathbf{Ad}\ge\mathbf{0},\mathbf{c}^T\mathbf{d}<0$ . 于是 $\mathbf{A}(-\mathbf{d})\le0\Rightarrow-\mathbf{c}^T\mathbf{d}\le0\Rightarrow\mathbf{c}^T\mathbf{d}\ge0$ . 矛盾! 因此得证.

例10 (凸多面体锥的支撑函数) 考虑实空间 $\mathbb{E}=\mathbb{R}^n$ . 设 $\mathbf{A}\in\mathbb{R}^{m\times n}$ . 定义集合 $S=\{\mathbf{x}\in\mathbb{R}^n:\mathbf{Ax\le0}\}.$ 因为 $S$ 是锥, 因此直接使用例8的结论我们可得 $\sigma_S(\mathbf{y})=\delta_{S^{\circ}}(\mathbf{y}).$ 下面我们来刻画 $S^{\circ}$ . 注意到 $\mathbf{y}\in S^{\circ}$ 当且仅当 $\langle\mathbf{y},\mathbf{x}\rangle\le0,\quad\forall\mathbf{x}:\mathbf{Ax\le0}.$ 由Farkas引理, 上式等价于 $\exists\lambda\in\mathbb{R}^m_+:\mathbf{A}^T\lambda=\mathbf{y}.$ 因此, $S^{\circ}=\{\mathbf{A}^T\lambda:\lambda\in\mathbb{R}_+^m\},$ $\boxed{\sigma_S(\mathbf{y})=\delta_{\left\{\mathbf{A}^T\lambda:\lambda\in\mathbb{R}^m_+\right\}}(\mathbf{y}).}$

例11 (仿射集的支撑函数) 考虑实空间 $\mathbb{E}=\mathbb{R}^n$ . 设 $\mathbf{B}\in\mathbb{R}^{m\times n}$ , $\mathbf{b}\in\mathbb{R}^m$ . 定义仿射集 $C=\{\mathbf{x}\in\mathbb{R}^n:\mathbf{Bx=b}\}.$ 我们假设 $C$ 是非空的, 即 $\exists\mathbf{x}_0\in\mathbb{R}^n:\mathbf{Bx}_0=\mathbf{b}$ . 按定义, $C$ 的支撑函数为 $\sigma_C(\mathbf{y})=\max_{\mathbf{x}}\{\langle\mathbf{y},\mathbf{x}\rangle:\mathbf{Bx=b}\}.$ 作平移 $\mathbf{x}=\mathbf{z+x}_0$ . 于是上式可重新写作 $\begin{aligned}\sigma_C(\mathbf{y})&=\max_{\mathbf{z}}\{\langle\mathbf{y},\mathbf{z}\rangle+\langle\mathbf{y},\mathbf{x}_0\rangle:\mathbf{Bz=0}\}\\&=\langle\mathbf{y},\mathbf{x}_0\rangle+\max_{\mathbf{z}}\{\langle\mathbf{y},\mathbf{z}\rangle:\mathbf{Bz=0}\}\\&=\langle\mathbf{y},\mathbf{x}_0\rangle+\sigma_{\tilde C}(\mathbf{y}),\end{aligned}$ 其中 $\tilde C=\{\mathbf{x}\in\mathbb{R}^n:\mathbf{Bx=0}\}$ . 而集合 $\tilde C$ 可以写作凸多面体锥的形式: $\tilde C=\{\mathbf{x}\in\mathbb{R}^n:\mathbf{Ax\le0}\},$ 这里 $\mathbf{A}=\begin{pmatrix}\mathbf{B}\\-\mathbf{B}\end{pmatrix}$ . 由例10我们知道, $\sigma_{\tilde C}=\delta_{\tilde C^{\circ}},$ 这里 $\tilde C^{\circ}$ 是 $\tilde C$ 的极锥, $\tilde C^{\circ}=\{\mathbf{B}^T\lambda_1-\mathbf{B}^T\lambda_2:\lambda_1,\lambda_2\in\mathbb{R}^m_+\}=\mathrm{Range}(\mathbf{B}^T).$ 最终, 我们得到 $\boxed{\sigma_C(\mathbf{y})=\langle\mathbf{y},\mathbf{x}_0\rangle+\delta_{\mathrm{Range}(\mathbf{B}^T)}(\mathbf{y}).}$

4.3 单位球的支撑函数

例12 (单位球的支撑函数) 考虑单位球 $B_{\Vert\cdot\Vert}[\mathbf{0},1]=\{\mathbf{x}\in\mathbb{E}:\Vert\mathbf{x}\Vert\le1\}.$ 由对偶范数的定义, 我们有对 $\forall\mathbf{y}\in\mathbb{E}^*$ , $\boxed{\sigma_{B_{\Vert\cdot\Vert}[\mathbf{0},1]}(\mathbf{y})=\max_{\Vert\mathbf{x}\Vert\le1}\langle\mathbf{y},\mathbf{x}\rangle=\Vert\mathbf{y}\Vert_*.}$ 对于 $\mathbb{E}=\mathbb{R}^n$ 的特殊情形, 我们有 $\boxed{\sigma_{B_{\Vert\cdot\Vert_p}[\mathbf{0},1]}(\mathbf{y})=\Vert\mathbf{y}\Vert_q,\quad\left(1\le p\le\infty,\frac{1}{p}+\frac{1}{q}=1\right);}\\\boxed{\sigma_{B_{\Vert\cdot\Vert_{\mathbf{Q}}}[\mathbf{0},1]}=\Vert\mathbf{y}\Vert_{\mathbf{Q}^{-1}},\quad\left(\mathbf{Q}\in\mathbb{S}^n_{++}\right).}$

4.4 闭凸函数不连续的例子

下一个例子也说明了闭凸函数不必连续.

例13 考虑 $\mathbb{R}^2$ 中的集合 $C=\left\{(x_1,x_2)^T:x_1+\frac{x_2^2}{2}\le0\right\}.$ 于是 $C$ 的支撑函数为 $\sigma_C(\mathbf{y})=\max_{x_1,x_2}\left\{y_1x_1+y_2x_2:x_1+\frac{x_2^2}{2}\le0\right\}.$ 显然 $\sigma_C(\mathbf{0})=0$ . 因此令 $\mathbf{y}\ne\mathbf{0}$ . 此时, 已知上述极大化问题的最优点必定取在 $C$ 的边界点. 事实上若取在了 $C$ 的内部, 则目标函数的梯度 $\mathbf{y}$ 必定是 $\mathbf{0}$ . 这与前提相悖. 因此 $\sigma_C(\mathbf{y})=\max_{x_1,x_2}\left\{y_1x_1+y_2x_2:x_1+\frac{x_2^2}{2}=0\right\}=\max_{x_2}\left\{-\frac{y_1}{2}x_2^2+y_2x_2\right\}.$ 当 $y_1<0$ 或 $y_1=0,y_2\ne0$ , 最大值都是 $\infty$ ; 当 $y_1>0$ , 则最大值在 $x_2=\frac{y_2}{y_1}$ 取到, 对应的最大值为 $\frac{y_2^2}{2y_1}$ . 因此此支撑函数为 $\boxed{\sigma_C(\mathbf{y})=\left\{\begin{array}{ll}\frac{y_1^2}{2y_1}, & y_1>0,\\0, & y_1=y_2=0,\\\infty, & 其它.\end{array}\right.}$

由引理1, $\sigma_C$ 必定是闭凸函数. 但它在 $y_1,y_2)=(0,0)$ 点处不连续. 事实上, 任取 $\alpha>0$ , 取路径 $y_1(t)=\frac{t^2}{2\alpha},y_2(t)=t(t>0)$ , 我们就有 $\sigma_C(y_1(t),y_2(t))=\alpha,$ 因此 $\sigma_C(y_1(t),y_2(t))\to\alpha,t\to0^+$ . 这与 $\sigma_C(0,0)=0$ 矛盾. 下图展示了 $\sigma_C$ 的图像. 其中的曲线表示的是函数的等高线.
在这里插入图片描述

4.5 单位单纯形的支撑函数

下面我们导出单位单纯形的支撑函数. 为此我们先做一些铺垫. 集合的支撑函数的一个重要性质是, 只要这些集合是闭凸的, 则它们的支撑函数是唯一确定的. 证明这个结论需要用到如下的严格分离定理 (strict separation theorem).

定理11 (严格分离定理) 设 $C\subset\mathbb{E}$ 为非空闭凸集, $\mathbf{y}\notin C$ . 则存在 $\mathbf{p}\in\mathbb{E}^*\setminus\{\mathbf{0}\}$ , $\alpha\in\mathbb{R}$ 使得 $\langle\mathbf{p,y}\rangle>\alpha$ 以及 $\langle\mathbf{p,x}\rangle\le\alpha,\quad\forall\mathbf{x}\in C.$

此定理的证明可以参看泛函分析中更加一般的凸集分离定理的证明. 在此省略.

引理4 设 $A,B\subset\mathbb{E}$ 为非空闭凸集. 则 $A = B$ 当且仅当 $\sigma_A=\sigma_B$ .

证明: 必要性是显然的. 下面证充分性. 设 $\sigma_A=\sigma_B$ . 若 $A\ne B$ , 则不失一般性, 我们假设 $\exists\mathbf{y}\in A:\mathbf{y}\notin B$ . 由于 $\mathbf{y}\notin B$ 且 $B$ 为非空闭凸集, 我们由严格分离定理就推出存在分离 $\mathbf{y}$ 和 $B$ 的超平面, 即 $\exists\mathbf{p}\in\mathbb{E}^*\setminus\{0\},\alpha>0$ , 使得 $\langle\mathbf{p},\mathbf{x}\rangle\le\alpha<\langle\mathbf{p,y}\rangle,\quad\forall\mathbf{x}\in B.$ 左端对 $\mathbf{x}\in B$ 取上确界, 我们推出 $\sigma_B(\mathbf{p})\le\alpha<\langle\mathbf{p,y}\rangle\le\sigma_A(\mathbf{p}).$ 这与 $\sigma_A=\sigma_B$ 是矛盾的. 得证.

在集合未必闭凸时, 我们有支撑函数在闭包 (closure) 和凸包下的不变性.

引理5 设 $A\subset\mathbb{E}$ 非空. 则
(i) $\sigma_A=\sigma_{\mathrm{cl}(A)}$ ;
(ii) $\sigma_A=\sigma_{\mathrm{conv}(A)}$ .

证明: (i) 由于 $A\subset\mathrm{cl}(A)$ , 因此显然有 $\sigma_A(\mathbf{y})\le\sigma_{\mathrm{cl}(A)}(\mathbf{y}),\quad\forall\mathbf{y}\in\mathbb{E}^*.$ 下面我们证明反向的情形. 令 $\mathbf{y}\in\mathbb{E}^*$ . 由支撑函数的定义, 存在序列 $\{\mathbf{x}^k\}_{k\ge1}\subset\mathrm{cl}(A)$ 使得 $\langle\mathbf{y},\mathbf{x}^k\rangle\to\sigma_{\mathrm{cl}(A)}(\mathbf{y}).$ 由集合闭包的定义, 于是我们有序列 $\{\mathbf{z}^k\}_{k\ge1}\subset A:\Vert\mathbf{z}^k-\mathbf{x}^k\Vert\le\frac{1}{k},\forall k$ , 因此 $\mathbf{z}^k-\mathbf{x}^k\to0.$ 由于 $\mathbf{z}^k\in A$ , 于是就有 $\sigma_A(\mathbf{y})\ge\langle\mathbf{y,z}^k\rangle=\langle\mathbf{y,x}^k\rangle+\langle\mathbf{y,z}^k-\mathbf{x}^k\rangle.$ 对 $k$ 取极限, 于是我们就有反向的不等式 $\sigma_A(\mathbf{y})\ge\sigma_{\mathrm{cl}(A)}(\mathbf{y})+0=\sigma_{\mathrm{cl}(A)}(\mathbf{y}).$
(ii) 因为 $A\subset\mathrm{conv}(A)$ , 因此显然有 $\sigma_A(\mathbf{y})\le\sigma_{\mathrm{conv}(A)}(\mathbf{y}),\quad\forall\mathbf{y}\in\mathbb{E}^*.$ 下面我们证明反向不等式. 令 $\mathbf{y}\in\mathbb{E}^*$ . 于是由支撑函数的定义, 存在序列 $\{\mathbf{x}^k\}_{k\ge1}\subset\mathrm{conv}(A)$ 使得 $\langle\mathbf{y},\mathbf{x}^k\rangle\to\sigma_{\mathrm{conv}(A)}(\mathbf{y}).$ 再由集合凸包的定义, 于是对 $\forall k$ , $\exists\mathbf{z}_1^k,\mathbf{z}_2^k,\ldots,\mathbf{z}_{n_k}^k\in A,\lambda^k\in\Delta_{n_k}$ 使得 $\mathbf{x}^k=\sum_{i=1}^{n_k}\lambda_1^k\mathbf{z}_i^k.$ 于是 $\langle\mathbf{y,x}^k\rangle=\left\langle\mathbf{y},\sum_{i=1}^{n_k}\lambda_i^k\mathbf{z}_i^k\right\rangle=\sum_{i=1}^{n_k}\lambda_i^k\langle\mathbf{y,z}_i^k\rangle\le\sum_{i=1}^{n_k}\lambda_i^k\sigma_A(\mathbf{y})=\sigma_A(\mathbf{y}),$ 再对 $k$ 取极限, 就得到反向不等式. 证毕.

例14 (单位单纯形的支撑函数) 考虑实空间 $\mathbb{E}^n$ 和其中的单位单纯形 $\Delta_n=\{\mathbf{x}\in\mathbb{R}^n:\mathbf{e}^T\mathbf{x}=1,\mathbf{x}\ge\mathbf{0}\}.$ 注意到单位单纯形可以写作 $\mathbb{R}^n$ 中标准基的凸包, 即 $\Delta_n=\mathrm{conv}\{\mathbf{e}_1,\mathbf{e}_2,\ldots,\mathbf{e}_n\},$ 于是由引理5的(ii)即得 $\sigma_{\Delta_n}(\mathbf{y})=\sigma_{\{\mathbf{e}_1,\ldots,\mathbf{e}_m\}}(\mathbf{y})=\max\{\langle\mathbf{e}_1,\mathbf{y}\rangle,\langle\mathbf{e}_2,\mathbf{y}\rangle,\ldots,\langle\mathbf{e}_n,\mathbf{y}\rangle\}.$ 若默认 $\mathbb{R}^n$ 中内积为点积, 则 $\boxed{\sigma_{\Delta_n}(\mathbf{y})=\max\{y_1,y_2,\ldots,y_n\}.}$

4.6 支撑函数的总结

$C$	$\sigma_C(\mathbf{y})$	假设条件
$\{\mathbf{b}_1,\ldots,\mathbf{b}_n\}$	$\max_{i=1,\ldots,n}\langle\mathbf{b}_i,\mathbf{y}\rangle$	$\mathbf{b}_i\in\mathbb{E}$
$K$	$\delta_{K^{\circ}}(\mathbf{y})$	$K$ 为锥
$\mathbb{R}^n_+$	$\delta_{\mathbb{R}^n_-}(\mathbf{y})$	$\mathbb{E}=\mathbb{R}^n$
$\Delta_n$	$\max\{y_1,y_2,\ldots,y_n\}$	$\mathbb{E}=\mathbb{R}^n$
$\{\mathbf{x}\in\mathbb{R}^n:\mathbf{Ax\le0}\}$	$\delta_{\{\mathbf{A}^T\lambda:\lambda\in\mathbb{R}^m_+\}}(\mathbf{y})$	$\mathbb{E}=\mathbb{R}^n,\mathbf{A}\in\mathbb{R}^{m\times n}$
$\{\mathbf{x}\in\mathbb{R}^n:\mathbf{Bx=b}\}$	$\langle\mathbf{y,x}_0\rangle+\delta_{\mathrm{Range}(\mathbf{B}^T)}(\mathbf{y})$	$\mathbb{E}=\mathbb{R}^n,\mathbf{B}\in\mathbb{R}^{m\times n},\mathbf{b}\in\mathbb{R}^m,\mathbf{Bx}_0=\mathbf{b}$
$B_{\Vert\cdot\Vert}[\mathbf{0},1]$	$\Vert\mathbf{y}\Vert_*$	-

有时简记为 $\mathbb{R}\cup\{\infty\}$ 或 $[-\infty,\infty]$ . ↩︎
注意从所谓 $\ell_0$ -范数的定义我们知道, $\ell_0$ -范数实际上不满足范数的定义: 它并不满足正齐次性的要求. 但由于这个术语被学术文献广泛使用, 因此我们也采用这种叫法. ↩︎
注意, 使用“扩展”这个词是基于上文提到的集合包含关系. ↩︎
在有限维空间情形等价于有界闭集. ↩︎
由(i)下有界, 所以必有下确界. ↩︎
此定理在数学分析中, 我们对连续函数的情形讨论过. 而上文提到, 全空间连续函数真包含于全空间闭函数, 因此此定理是数学分析中结论的推广. ↩︎
从命题1的(ii)我们知道, 凸的正常扩充实值函数是凸的实值函数的推广. ↩︎
这里按实值函数在凸集上凸性的定义理解. ↩︎
此不等式为以下Jensen不等式的特例: $f\left(\sum\limits_{i=1}^k\lambda_i\mathbf{x}_i\right)\le\sum_{i=1}^k\lambda_if(\mathbf{x}_i).$ ↩︎
可对比之前的保闭性运算. 本定理只列举部分满足要求的运算. ↩︎
在 $C$ 是闭集时, 对 $\forall\mathbf{x}\notin C$ , 必有 $d_C(\mathbf{x})>0$ . ↩︎
$g$ 不取 $\infty$ 是显然的. ↩︎