First Order Methods in Optimization Ch3. Subgradients (Part I)

Learner Hu

已于 2022-11-07 09:50:43 修改

阅读量2k

点赞数 5

分类专栏： FOM in Optimization 文章标签：线性代数矩阵

于 2019-11-23 10:57:26 首次发布

原文链接：https://download.csdn.net/download/m0_37854871/11562555

版权

FOM in Optimization 专栏收录该内容

10 篇文章 69 订阅

订阅专栏

第三章: 次梯度 (Part I)

文章目录

第三章: 次梯度 (Part I)
- 1. 定义与典型例子
- 2. 次微分的性质

1. 定义与典型例子

定义1 (次梯度 (subgradient)) 设 $f:\mathbb{E}\to(-\infty,\infty]$ 为一正常函数, $\mathbf{x}\in\mathrm{dom}(f)$ . 我们称向量 $\mathbf{g}\in\mathbb{E}^*$ 为 $f$ 在 $\mathbf{x}$ 处的次梯度, 若 $f(\mathbf{y})\ge f(\mathbf{x})+\langle\mathbf{g},\mathbf{y-x}\rangle,\quad\forall\mathbf{y}\in\mathbb{E}.$ 在第一章中, 我们提到在 $\mathbb{E}$ 是内积空间时, $\mathbb{E}^*$ 与 $\mathbb{E}$ 的元素可以看做是相同的 (或一一对应的). 它们唯一的不同只可能是在范数的定义上. 而这一点在欧式空间中也可以不用考虑.
我们也称上述定义次梯度的不等式为次梯度不等式 (subgradient inequality). 这个不等式实际上说明了这样一件事: 每个次梯度都对应原 $f$ 的一个下界估计函数, 而此函数与原 $f$ 在 $\mathbf{x}$ 处是曲面相切的. 由于次梯度不等式对 $\mathbf{y}\notin\mathrm{dom}(f)$ 是显然成立的, 因此我们一般将 $\mathbf{y}$ 限制在 $\mathrm{dom}(f)$ 中, 从而不等式变成 $f(\mathbf{y})\ge f(\mathbf{x})+\langle\mathbf{g,y-x}\rangle,\quad\forall\mathbf{y}\in\mathrm{dom}(f).$ 给定某一 $\mathbf{x}\in\mathrm{dom}(f)$ , $f$ 在 $\mathbf{x}$ 处可能有不只一个次梯度, 即满足上述次梯度不等式的 $g\in\mathbb{E}^*$ 不唯一. 我们称 $f$ 在 $\mathbf{x}$ 处所有的次梯度构成的集合为 $f$ 在 $\mathbf{x}$ 处的次微分 (subdifferential).

定义2 (次微分) 我们称 $f$ 在 $\mathbf{x}$ 处所有的次梯度构成的集合为 $f$ 在 $\mathbf{x}$ 处的次微分, 记作 $\partial f(\mathbf{x})$ : $\partial f(\mathbf{x})\equiv\{\mathbf{g}\in\mathbb{E}^*:f(\mathbf{y})\ge f(\mathbf{x})+\langle\mathbf{g,y-x}\rangle,\forall\mathbf{y}\in\mathbb{E}\}.$ 当 $\mathbf{x}\notin\mathrm{dom}(f)$ , 我们规定 $\partial f(\mathbf{x})=\emptyset$ . 这一规定是合理的. 事实上, 对于正常函数, 对 $\forall\mathbf{x}\notin\mathrm{dom}(f),\mathbf{y}\in\mathrm{dom}(f)$ , 次梯度不等式都不可能成立.

例1 (范数在 $\mathbf{0}$ 处的次微分) 设 $f:\mathbb{E}\to\mathbb{R}$ 定义为 $f(\mathbf{x})=\Vert\mathbf{x}\Vert$ , 其中 $\Vert\cdot\Vert$ 为 $\mathbb{E}$ 上所赋的范数. 下面我们证明 $f$ 在 $\mathbf{x=0}$ 处的次微分是对偶范数下的单位球: $\boxed{\partial f(\mathbf{0})=B_{\Vert\cdot\Vert_*}[\mathbf{0},1]=\{\mathbf{g}\in\mathbb{E}^*:\Vert\mathbf{g}\Vert_*\le1\}.}$ 为此, 我们按定义证明. 注意到 $\mathbf{g}\in\partial f(\mathbf{0})$ 当且仅当 $f(\mathbf{y})\ge f(\mathbf{0})+\langle\mathbf{g,y-0}\rangle,\quad\forall\mathbf{y}\in\mathbb{E},$ 这等价于 $\Vert\mathbf{y}\Vert\ge\langle\mathbf{g,y}\rangle,\quad\forall\mathbf{y}\in\mathbb{E}.$ 下证上式成立当且仅当 $\Vert\mathbf{g}\Vert_*\le1$ . 事实上, 若 $\Vert\mathbf{g}\Vert_*\le1$ , 则由广义Cauchy-Schwarz不等式可得 $\langle\mathbf{g},\mathbf{y}\rangle\le\Vert\mathbf{g}\Vert_*\Vert\mathbf{y}\Vert\le\Vert\mathbf{y}\Vert,\quad\forall\mathbf{y}\in\mathbb{E}.$ 反过来, 假设有不等式成立, 则有 $\Vert\mathbf{g}\Vert_*=\max_{\mathbf{y}:\Vert\mathbf{y}\Vert\le1}\langle\mathbf{g,y}\rangle\le\max_{\mathbf{y:\Vert y\Vert\le}1}\Vert\mathbf{y}\Vert=1.$ 得证.

例2 ( $\ell_1$ -范数在 $\mathbf{0}$ 处的次微分) 设 $f:\mathbb{R}^n\to\mathbb{R}$ 定义为 $f(\mathbf{x})=\Vert\mathbf{x}\Vert_1$ . 由例1以及 $\ell_1$ -范数的对偶范数为 $\ell_{\infty}$ -范数, 于是我们有 $\partial f(\mathbf{0})=B_{\Vert\cdot\Vert_{\infty}}[\mathbf{0},1]=[-1,1]^n.$ 特别地, 当 $n = 1$ , 则 $f (x) = ∣ x ∣$ , 于是我们有 $\partial f(0)=[-1,1].$ 此时, 对应于 $-0.8,-0.3,0.7\in\partial f(0)$ 的线性下界估计为 $- 0.8 x, - 0.3 x, 0.7 x$ . 见下图.
在这里插入图片描述

下面我们讨论指示函数的次微分. 为此, 我们定义集合的法锥 (normal cone). 给定集合 $S\subset\mathbb{E},\mathbf{x}\in S$ , $S$ 在 $\mathbf{x}$ 处的法锥定义为 $N_S(\mathbf{x})=\{\mathbf{y}\in\mathbb{E}^*:\langle\mathbf{y,z-x}\rangle\le0,\forall\mathbf{z}\in S\}.$ 固定 $\mathbf{z}$ 时, $N_S$ 为一闭凸的半空间. 由此可见, $S$ 在某点 $\mathbf{x}$ 处的法锥为若干个闭凸半空间的交, 从而也是闭凸集. 当 $\mathbf{x}\notin S$ , 我们规定 $N_S(\mathbf{x})=\emptyset$ .

例3 (指示函数的次微分) 设 $S\subset\mathbb{E}$ 非空, 考虑其指示函数 $\delta_S$ . 于是对 $\forall\mathbf{x}\in S$ , 我们有 $\mathbf{y}\in\partial\delta_S(\mathbf{x})$ 当且仅当 $\delta_S(\mathbf{z})\ge\delta_S(\mathbf{x})+\langle\mathbf{y,z-x}\rangle,\quad\forall\mathbf{z}\in S,$ 这等价于 $\langle\mathbf{y,z-x}\rangle\le0,\quad\forall\mathbf{z}\in S.$ 于是依法锥的定义, 我们有 $\boxed{\partial\delta_S(\mathbf{x})=N_S(\mathbf{x}),\quad\forall\mathbf{x}\in S.}$ 对 $\mathbf{x}\notin S$ , $\partial\delta_S(\mathbf{x})=N_S(\mathbf{x})=\emptyset$ . 这表明之前对 $N_S$ 的规定是合理的. 因此上式对 $\mathbf{x}\notin S$ 也是成立的.

例4 (单位球的指示函数的次微分) 作为例3的特殊情形, 我们令例3中的 $S=B[\mathbf{0},1]=\{\mathbf{x}\in\mathbb{E}:\Vert\mathbf{x}\Vert\le1\}.$ 于是 $\partial\delta_S(\mathbf{x})=N_S(\mathbf{x})$ . 下面我们给出 $N_S$ 的解析表示. 若 $\mathbf{x}\notin S$ , 则 $N_S(\mathbf{x})=\emptyset$ . 设 $\Vert\mathbf{x}\Vert\le1$ . 于是 $\mathbf{y}\in\mathbb{E}^*:\mathbf{y}\in N_S(\mathbf{x})$ 当且仅当 $\langle\mathbf{y,z-x}\rangle\le0,\quad\forall\mathbf{z}:\Vert\mathbf{z}\Vert\le1,$ 这等价于 $\Vert\mathbf{y}\Vert_*=\max_{\mathbf{z}:\Vert\mathbf{z}\Vert\le1}\langle\mathbf{y,z}\rangle\le\langle\mathbf{y,x}\rangle.$ 因此, $\boxed{\partial\delta_{B[\mathbf{0},1]}(\mathbf{x})=N_{B[\mathbf{0},1]}(\mathbf{x})=\left\{\begin{array}{ll}\{\mathbf{y}\in\mathbb{E}^*:\Vert\mathbf{y}\Vert_*\le\langle\mathbf{y,x}\rangle\}, & \mathbf{x}\in B[\mathbf{0},1],\\\emptyset, & \mathbf{x}\notin B[\mathbf{0},1].\end{array}\right.}$

例5 (对偶函数的次梯度) 考虑极小化问题 $\min\{f(\mathbf{x}):\mathbf{g}(\mathbf{x})\le\mathbf{0},\mathbf{x}\in X\},$ 其中 $\emptyset\ne X\subset\mathbb{E}$ , $f:\mathbb{E}\to\mathbb{R}$ 以及向量值函数 $\mathbf{g}:\mathbb{E}\to\mathbb{R}^m$ . 此时Lagrange对偶问题的目标函数为 $q(\mathbf{\lambda})=\min_{\mathbf{x}\in X}\left\{L(\mathbf{x};\mathbf{\lambda})\equiv f(\mathbf{x})+\lambda^T\mathbf{g}(\mathbf{x})\right\}.$ 求解对偶问题就是要在 $q$ 的有效域上求 $q$ 的极大, 其有效域定义为 $\mathrm{dom}(-q)=\{\lambda\in\mathbb{R}_+^m:q(\lambda)>-\infty\}.$ 不论原始问题是凸问题与否, 对偶问题 $\max_{\lambda\in\mathbb{R}^m}\{q(\lambda):\lambda\in\mathrm{dom}(-q)\}$ 总是凸的, 即 $q$ 是凹函数且 $\mathrm{dom}(-q)$ 是一凸集. 设 $\lambda_0\in\mathrm{dom}(-q)$ , 并设问题 $q(\lambda_0)=\min_{\mathbf{x}\in X}\left\{f(\mathbf{x})+\lambda_0^T\mathbf{g(x)}\right\}$ 的最优值在 $\mathbf{x}_0\in X$ 处取得, 即 $L(\mathbf{x}_0;\lambda_0)=f(\mathbf{x}_0)+\lambda_0^T\mathbf{g}(\mathbf{x}_0)=q(\lambda_0).$ 下面我们来求凸函数 $- q$ 在 $\lambda_0$ 处的一个次梯度. 为此, 注意到对 $\forall\lambda\in\mathrm{dom}(-q)$ , $\begin{aligned}q(\lambda)&=\min_{\mathbf{x}\in X}\left\{ f(\mathbf{x})+\lambda^T\mathbf{g}(\mathbf{x})\right\}\\&\le f(\mathbf{x}_0)+\lambda^T\mathbf{g}(\mathbf{x}_0)\\&=f(\mathbf{x}_0)+\lambda_0^T\mathbf{g(x}_0)+(\lambda-\lambda_0)^T\mathbf{g(x}_0)\\&=q(\lambda_0)+\mathbf{g(x}_0)^T(\lambda-\lambda_0).\end{aligned}$ 从而由 $-q(\lambda)\ge-q(\lambda_0)+\left(-\mathbf{g(x}_0)\right)^T(\lambda-\lambda_0),\quad\forall\lambda\in\mathrm{dom}(-q),$ 这就推出 $\boxed{-\mathbf{g(x}_0)\in\partial(-q)(\lambda_0).}$

例6 (取最大特征值函数的次梯度) 考虑函数 $f:\mathbb{S}^n\to\mathbb{R}$ 定义为 $f(\mathbf{X})=\lambda_{\max}(\mathbf{X}).$ 设 $\mathbf{X}\in\mathbb{S}^n$ , $\mathbf{v}$ 为 $\mathbf{X}$ 对应于最大特征值的单位特征向量 (即 $\Vert\mathbf{v}\Vert_2=1$ ). 下面我们证明 $\boxed{\mathbf{vv}^T\in\partial f(\mathbf{X}).}$ 为此, 注意对 $\forall\mathbf{Y}\in\mathbb{S}^n$ , 我们有 $\begin{aligned}\lambda_{\max}(\mathbf{Y})&=\max_{\mathbf{u}}\{\mathbf{u}^T\mathbf{Yu}:\Vert\mathbf{u}\Vert_2=1\}\\&\ge\mathbf{v}^T\mathbf{Yv}\\&=\mathbf{v}^T\mathbf{Xv}+\mathbf{v}^T\mathbf{(Y-X)v}\\&=\lambda_{\max}(\mathbf{X})+\mathrm{Tr}\left(\mathbf{v}^T\mathbf{(Y-X)v}\right)\\&=\lambda_{\max}(\mathbf{X})+\mathrm{Tr}\left(\mathbf{vv}^T\mathbf{(Y-X)}\right)\\&=\lambda_{\max}(\mathbf{X})+\left\langle\mathbf{vv}^T,\mathbf{Y-X}\right\rangle,\end{aligned}$
这里需要指出, 例1-例4与例5-例6的结论是存在本质的差别的: 前者我们给出了次微分的完整刻画, 我们称这样的结论为强结论 (strong results); 后者我们仅给出了次微分中的某一个元, 我们称这样的结论为弱结论 (weak results).

2. 次微分的性质

细心的读者可能会发现, 前一小节内我们所列举的次微分集合都是闭凸集. 这不是巧合.

定理1 (次微分集合的闭凸性) 设 $f:\mathbb{E}\to(-\infty,\infty]$ 为一正常函数. 则对 $\forall\mathbf{x}\in\mathbb{E}$ , 次微分集合 $\partial f(\mathbf{x})$ 都是闭凸集.

证明: 对 $\forall\mathbf{x}\in\mathbb{E}$ , 次微分集合可以表示成 $\partial f(\mathbf{x})=\bigcap_{\mathbf{y}\in\mathbb{E}}H_{\mathbf{y}},$ 其中 $H_{\mathbf{y}}=\{\mathbf{g}\in\mathbb{E}^*:f(\mathbf{y})\ge f(\mathbf{x})+\langle\mathbf{g},\mathbf{y-x}\rangle\}.$ 由于 $H_{\mathbf{y}}$ 都是半空间 (从而是闭凸的), 因此 $\partial f(\mathbf{x})$ 也是闭凸的. 证毕.

次微分 $\partial f(\mathbf{x})$ 可能是空集. 当其在 $\mathbf{x}\in\mathbb{E}$ 是非空时, 我们称 $f$ 在 $\mathbf{x}$ 处次可微 (subdifferentiable).

定义3 (次可微) 我们称一正常函数 $f:\mathbb{E}\to(-\infty,\infty]$ 在 $\mathbf{x}\in\mathrm{dom}(f)$ 是次可微的, 若 $\partial f(\mathbf{x})\ne\emptyset$ .

我们记所有次可微的点构成的集合为 $\mathrm{dom}(\partial f)$ : $\mathrm{dom}(\partial f)=\{\mathbf{x}\in\mathbb{E}:\partial f(\mathbf{x})\ne\emptyset\}.$ 下面我们说明若一函数在其凸有效域内任一点处均次可微, 则这个函数也是凸函数.

引理1 (次微分集合非空, 有效域为凸集 $\Rightarrow$ 函数的凸性) 设 $f:\mathbb{E}\to(-\infty,\infty]$ 为一正常函数, $\mathrm{dom}(f)$ 是凸集. 假设对 $\forall\mathbf{x}\in\mathrm{dom}(f)$ , 集合 $\partial f(\mathbf{x})$ 是非空的, 则 $f$ 是凸函数.
证明: 设 $\mathbf{x,y}\in\mathrm{dom}(f)$ , $\alpha\in[0,1]$ . 定义 $\mathbf{z}_{\alpha}=(1-\alpha)\mathbf{x}+\alpha\mathbf{y}$ . 由 $\mathrm{dom}(f)$ 的凸性, 我们有 $\mathbf{z}_{\alpha}\in\mathrm{dom}(f)$ . 因此 $\exists\mathbf{g}\in\partial f(\mathbf{z}_{\alpha})$ . 这就推出两个不等式: $\begin{aligned}f(\mathbf{y})&\ge f(\mathbf{z}_{\alpha})+\langle\mathbf{g,y-z}_{\alpha}\rangle=f(\mathbf{z}_{\alpha})+(1-\alpha)\langle\mathbf{g,y-x}\rangle,\\f(\mathbf{x})&\ge f(\mathbf{z}_{\alpha})+\langle\mathbf{g,x-z}_{\alpha}\rangle=f(\mathbf{z}_{\alpha})-\alpha\langle\mathbf{g,y-x}\rangle.\end{aligned}$ 第一个不等式两边乘 $\alpha$ , 第二个不等式两边乘 $(1-\alpha)$ , 加起来就得到 $f\left((1-\alpha)\mathbf{x}+\alpha\mathbf{y}\right)=f(\mathbf{z}_{\alpha})\le(1-\alpha)f(\mathbf{x})+\alpha f(\mathbf{y}).$ 因上式对 $\forall\mathbf{x,y}\in\mathrm{dom}(f)$ 成立, 再加上 $\mathrm{dom}(f)$ 是凸集, 由第二章的命题1我们就知道 $f$ 是凸函数. 证毕.

上述引理1的逆命题不真. 即凸函数的有效域中并不一定是点点次可微的.

例7 考虑凸函数 $f:\mathbb{R}\to(-\infty,\infty]$ 定义为 $f(x)=\left\{\begin{array}{ll}-\sqrt{x}, & x\ge0,\\\infty, & 其它.\end{array}\right.$ 此函数的图像见下图.
在这里插入图片描述

下面说明 $f$ 在 $x = 0$ 处是不次可微的. 为此我们用反证法证明. 假设存在 $g\in\mathbb{R}$ 使得 $g\in\partial f(0)$ . 则 $f(y)\ge f(0)+g(y-0),\quad\forall y\ge0.$ 这等价于 $-\sqrt{y}\ge gy,\quad\forall y\ge0.$ 当 $y > 0$ 时, 令 $y$ 从正实轴趋近于 $0^+$ , 就可得 $g\to-\infty$ . 矛盾!

尽管凸函数在有效域不一定次可微, 但它们在各自有效域的内部是一定次可微的. 我们还将证明, 有效域内点处的次微分一定是个有界集. 为此, 我们不加证明地叙述支撑超平面定理 (supporting hyperplane theorem). 它的证明可见泛函分析中关于Hahn-Banach延拓定理的第一几何形式的论述.

定理2 (支撑超平面定理) 设 $\emptyset\ne C\subset\mathbb{E}$ 为一凸集, $\mathbf{y}\notin\mathrm{int}(C)$ . 于是 $\exists\mathbf{0}\ne\mathbf{p}\in\mathbb{E}^*$ 使得 $\langle\mathbf{p,x}\rangle\le\langle\mathbf{p,y}\rangle,\quad\forall\mathbf{x}\in C.$

定理3 (有效域内点次微分非空且有界) 设 $f:\mathbb{E}\to(-\infty,\infty]$ 为一正常凸函数, $\tilde{\mathbf{x}}\in\mathrm{int}(\mathrm{dom}(f))$ . 于是 $\partial f(\tilde{\mathbf{x}})$ 非空且有界.

证明: 由于 $(\tilde{\mathbf{x}},f(\tilde{\mathbf{x}}))$ 位于 $\mathrm{epi}(f)\subset\mathbb{E}\times\mathbb{R}$ 的边界, 于是由支撑超平面定理可知存在点 $(\tilde{\mathbf{x}},f(\tilde{\mathbf{x}}))$ 和 $\mathrm{epi}(f)$ 之间的分离超平面, 即 $\exists(\mathbf{0},0)\ne(\mathbf{p},-\alpha)\in\mathbb{E}^*\times\mathbb{R}$ 使得 $\langle\mathbf{p,\tilde x}\rangle-\alpha f(\tilde{\mathbf{x}})\ge\langle\mathbf{p,x}\rangle-\alpha t,\quad\forall(\mathbf{x},t)\in\mathrm{epi}(f).$ 因为 $(\tilde{\mathbf{x}},f(\tilde{\mathbf{x}})+1)\in\mathrm{epi}(f)$ , 因此将 $\mathbf{x}=\tilde{\mathbf{x}}$ 和 $t=f(\tilde{\mathbf{x}})+1$ 代入上述不等式即可知 $\alpha\ge0$ . 又因为 $\tilde{\mathbf{x}}\in\mathrm{int}(\mathrm{dom}(f))$ , 于是由第二章的定理9——凸函数的局部Lipschitz连续性——可知 $\exists\epsilon>0$ , $L > 0$ 使得 $B_{\Vert\cdot\Vert}[\tilde{\mathbf{x}},\epsilon]\subset\mathrm{dom}(f)$ 且 $|f(\mathbf{x})-f(\tilde{\mathbf{x}})|\le L\Vert\mathbf{x-\tilde x}\Vert,\quad\forall\mathbf{x}\in B_{\Vert\cdot\Vert}[\tilde{\mathbf{x}},\epsilon].$ 因 $B_{\Vert\cdot\Vert}[\tilde{\mathbf{x}},\epsilon]\subset\mathrm{dom}(f)$ , 于是对 $\forall\mathbf{x}\in B_{\Vert\cdot\Vert}[\tilde{\mathbf{x}},\epsilon]$ , $(\mathbf{x},f(\mathbf{x}))\in\mathrm{epi}(f)$ . 令 $t=f(\mathbf{x})$ , 我们有 $\langle\mathbf{p,x-\tilde x}\rangle\le\alpha(f(\mathbf{x})-f(\tilde{\mathbf{x}}))\le\alpha L\Vert\mathbf{x-\tilde x}\Vert,\quad\forall\mathbf{x}\in B_{\Vert\cdot\Vert}[\tilde{\mathbf{x}},\epsilon].$ 由Hahn-Banach定理¹的推论以及欧式空间的自反性², 取 $\mathbf{p}^{\dagger}\in\mathbb{E}:\langle\mathbf{p,p}^{\dagger}\rangle=\Vert\mathbf{p}\Vert_*,\Vert\mathbf{p}^{\dagger}\Vert=1$ . 因为 $\tilde{\mathbf{x}}+\epsilon\mathbf{p}^{\dagger}\in B_{\Vert\cdot\Vert}[\tilde{\mathbf{x}},\epsilon]$ , 将 $\mathbf{x}=\tilde{\mathbf{x}}+\epsilon\mathbf{p}^{\dagger}$ 代入上述不等式即可得 $\epsilon\Vert\mathbf{p}\Vert_*=\epsilon\langle\mathbf{p,p}^{\dagger}\rangle\le\alpha L\epsilon\Vert\mathbf{p}^{\dagger}\Vert=\alpha L\epsilon.$ 因此 $\alpha>0$ . 如若不然, 则有 $\alpha=0\Rightarrow\mathbf{p}=\mathbf{0}$ . 这与 $(\mathbf{p},\alpha)$ 不是零向量矛盾. 因此 $\alpha$ 就可作分母, 得到 $f(\mathbf{x})\ge f(\tilde{\mathbf{x}}）+\langle\mathbf{g,x-\tilde x}\rangle,\quad\forall\mathbf{x}\in\mathrm{dom}(f),$ 其中 $\mathbf{g}=\mathbf{p}/\alpha$ . 于是 $\mathbf{g}\in\partial f(\tilde{\mathbf{x}})\Rightarrow\partial f(\tilde{\mathbf{x}})\ne\emptyset$ . 为证明 $\partial f(\tilde{\mathbf{x}})$ 的有界性, 任取 $\mathbf{g}\in\partial f(\tilde{\mathbf{x}})$ . 取 $\mathbf{g}^{\dagger}\in\mathbb{E}:\Vert\mathbf{g}\Vert_*=\langle\mathbf{g,g}^{\dagger}\rangle,\Vert\mathbf{g}^{\dagger}\Vert=1$ . 于是代入 $\mathbf{x}=\tilde{\mathbf{x}}+\epsilon\mathbf{g}^{\dagger}$ 就有 $\epsilon\Vert\mathbf{g}\Vert_*=\epsilon\langle\mathbf{g,g}^{\dagger}\rangle=\langle\mathbf{g,x-\tilde x}\rangle\le f(\mathbf{x})-f(\tilde{\mathbf{x}})\le L\Vert\mathbf{x-\tilde x}\Vert= L\epsilon,$ 这表明 $\partial f(\tilde{\mathbf{x}})\subset B_{\Vert\cdot\Vert_*}[\mathbf{0},L]$ . 证毕.

定理3的结论告诉了我们如下包含关系: $\mathrm{int}(\mathrm{dom}(f))\subset\mathrm{dom}(\partial f).$ 定理3的一个直接推论是, 实值凸函数 (即 $f:\mathrm{dom}(f)=\mathbb{E}$ ) 在任何点处都次可微.

推论1 (实值凸函数的次可微性) 设 $f:\mathbb{E}\to\mathbb{R}$ 为一凸函数, 则 $f$ 在 $\mathbb{E}$ 上次可微.

我们也可以推广定理3的结论, 将次微分集合的有界性推广至有效域内部的任一给定紧集上.

定理4 (次微分集合在紧集上的有界性) 设 $f:\mathbb{E}\to(-\infty,\infty]$ 为一正常凸函数, $X\subset\mathrm{int}(\mathrm{dom}(f))$ 为非空紧集. 则 $Y=\bigcup_{\mathbf{x}\in X}\partial f(\mathbf{x})$ 非空有界.

证明: 由定理3可知对 $\forall\mathbf{x}\in X$ , 有 $\partial f(\mathbf{x})\ne\emptyset$ , 于是 $Y$ 是非空集. 下面我们用反证法证明 $Y$ 的有界性. 假设不然, 存在序列 $\{\mathbf{x}_k\}_{k\ge1}\subset X$ , $\mathbf{g}_k\in\partial f(\mathbf{x}_k)$ 使得 $\Vert\mathbf{g}_k\Vert_*\to\infty$ . 对 $\forall k$ , 类似于前面定理3的证明, 令 $\mathbf{g}_k^{\dagger}$ 为满足 $\langle\mathbf{g}_k,\mathbf{g}_k^{\dagger}\rangle=\Vert\mathbf{g}_k\Vert_*,\Vert\mathbf{g}_k^{\dagger}\Vert=1$ 的 $\mathbb{E}$ 中的向量. 因 $X$ 是紧集 (从而是有界闭集), $(\mathrm{int}(\mathrm{dom}(f)))^c$ 是闭集, 且 $X\bigcap(\mathrm{int}(\mathrm{dom}(f)))^c=\emptyset$ , 于是 $\exists\epsilon>0$ 使得 $\Vert\mathbf{x}-\mathbf{y}\Vert\ge\epsilon,\quad\forall\mathbf{x}\in X,\mathbf{y}\notin\mathrm{int}(\mathrm{dom}(f)).$ 由 $\mathbf{g}_k\in\partial f(\mathbf{x}_k)$ 就推出 $f\left(\mathbf{x}_k+\frac{\epsilon}{2}\mathbf{g}_k^{\dagger}\right)-f(\mathbf{x}_k)\ge\frac{\epsilon}{2}\langle\mathbf{g}_k,\mathbf{g}_k^{\dagger}\rangle=\frac{\epsilon}{2}\Vert\mathbf{g}_k\Vert_*,$ 这里注意 $\mathbf{x}_k+\frac{\epsilon}{2}\mathbf{g}_k^{\dagger}\in\mathrm{int}(\mathrm{dom}(f))$ . 由于 $\Vert\mathbf{g}_k\Vert_*\to\infty$ , 于是由上式就存在子列 $\{\mathbf{x}_k\}_{k\in T},\{\mathbf{g}_k^{\dagger}\}_{k\in T}$ 使得在指标集 $T$ 中有以下极限式 $f\left(\mathbf{x}_k+\frac{\epsilon}{2}\mathbf{g}_k^{\dagger}\right)-f(\mathbf{x}_k)\to\infty.$ 由 $\{\mathbf{x}_k\}_{k\in T},\{\mathbf{g}_k^{\dagger}\}_{k\in T}$ 都是有界的, 因此存在收敛子列 $\{\mathbf{x}_k\}_{k\in S},\{\mathbf{g}_k^{\dagger}\}_{k\in S} (S\subset T)$ , 记收敛点分别为 $\bar{\mathbf{x}},\bar{\mathbf{g}}$ . 因此在指标集 $S$ 中, $\mathbf{x}_k+\frac{\epsilon}{2}\mathbf{g}_k^{\dagger}\to\bar{\mathbf{x}}+\frac{\epsilon}{2}\bar{\mathbf{g}}$ . 因 $\mathbf{x}_k\in X$ , $X$ 为紧集, 于是 $\bar{\mathbf{x}}\in X$ . 再由 $\Vert\bar{\mathbf{g}}\Vert=1$ , 可知 $\mathbf{x}_k,\mathbf{x}_k+\frac{\epsilon}{2}\mathbf{g}_k^{\dagger},\bar{\mathbf{x}}+\frac{\epsilon}{2}\bar{\mathbf{g}}\in\mathrm{int}(\mathrm{dom}(f))$ . 从 $f$ 在 $\mathrm{int}(\mathrm{dom}(f))$ 上的局部Lipschitz连续性, 就可得到在指标集 $S$ 中有以下极限式成立 $f\left(\mathbf{x}_k+\frac{\epsilon}{2}\mathbf{g}_k^{\dagger}\right)-f(\mathbf{x}_k)\to f\left(\bar{\mathbf{x}}+\frac{\epsilon}{2}\bar{\mathbf{g}}\right)-f(\bar{\mathbf{x}}),$ 这与 $T$ 中的极限式矛盾! 证毕.

次可微性并不是在有效域的内部才有. 事实上, 它可以推广至有效域仿射包的内部. 下面我们引入相对内部 (relative interior) 的概念: $\mathrm{ri}(S)=\{\mathbf{x}\in\mathrm{aff}(S):B[\mathbf{x},\epsilon]\cap\mathrm{aff}(S)\subset S,\exists\epsilon>0\}.$ 相对内部的一个重要性质是, 凸集的相对内部一定是非空的.

定理5 (凸集相对内部非空) 设 $C\subset\mathbb{E}$ 为一非空凸集. 则 $\mathrm{ri}(C)$ 非空.

证明: 我们仅需考虑 $\mathrm{aff}(C)=\mathbb{R}^n,\exists n$ 的情形. 事实上, 通过对 $C$ 做平移变换, 我们不妨假设 $\mathrm{aff}(C)$ 包含原点 $\mathbf{0}$ . 从而 $\mathrm{aff}(C)$ 是一线性子空间. 因此在下面的证明过程中, 我们都假设 $\mathrm{aff}(C)=\mathbb{R}^n$ , 因此我们仅需 $C$ 的内部是非空的.
现设 $\mathrm{aff}(C)=\mathbb{R}^n$ 有一仿射基 $\mathbf{a}_0,\ldots,\mathbf{a}_n\in C$ . 因 $C$ 是凸集, 所以这些向量的凸包——以 $\mathbf{a}_0,\ldots,\mathbf{a}_n$ 为顶点的单纯形 $\Delta$ ——包含在 $C$ 中. 因此为证明 $\mathrm{int}(C)\ne\emptyset$ , 我们只需证明 $\mathrm{int}(\Delta)\ne\emptyset$ . 这点在几何上看起来是很直观的. 下面我们给出其严格证明.
因 $\mathbf{a}_0,\ldots,\mathbf{a}_n$ 为仿射基, 因此 $\forall\mathbf{x}\in\mathbb{R}^n$ 都是这一基的仿射组合. 而组合系数 $\lambda_i=\lambda_i(\mathbf{x})$ 为以下线性系统的解: $\sum_{i=1}^n\lambda_i\mathbf{a}_i=\mathbf{x},\quad\sum_{i=0}^n\lambda_i=1,$ 或者以分量形式, 有 $\begin{aligned}a_{01}\lambda_0+a_{11}\lambda_1+\cdots+a_{n1}\lambda_n&=x_1,\\a_{02}\lambda_0+a_{12}\lambda_1+\cdots+a_{n2}\lambda_n&=x_2,\\\cdots&\cdots\\a_{0n}\lambda_0+a_{1n}\lambda_1+\cdots+a_{nn}\lambda_n&=x_n,\\\lambda_0+\lambda_2+\cdots+\lambda_n&=1.\end{aligned}$ 这里 $a_{pq}$ 为 $\mathbf{a}_p$ 的第 $q$ 项. 这是一个带 $n + 1$ 个未知数的 $n + 1$ 阶方程组. 我们断言其对应的齐次系统只有平凡零解. 事实上, 若存在非平凡的解, 则其就对应了 $\mathbf{a}_i$ 的一个非平凡等于 $\mathbf{0}$ 的一个线性组合. 除此之外, 其分量和也是0. 这就与 $\mathbf{a}_0,\ldots,\mathbf{a}_n$ 的仿射无关性矛盾! 于是等价地, 我们知道这一线性系统的系数矩阵 $A$ 是非奇异的. 从而解 $\lambda(\mathbf{x})$ 由 $\mathbf{x}$ 唯一确定且线性依赖于 $\mathbf{x}$ .
现取 $\forall\mathbf{x}=\mathbf{x}^0:\lambda_i(\mathbf{x}^0)>0$ (从而 $\mathbf{x}^0\in\Delta$ ), 例如 $\mathbf{x}^0=(n+1)^{-1}\sum_{i=0}^n\mathbf{a}_i$ . 下面我们证明 $\mathbf{x}^0$ 为 $\Delta$ 内点. 由 $\lambda_i(\cdot)$ 的连续性, 我们推出存在 $\mathbf{x}^0$ 的邻域 $B_r(\mathbf{x}^0)$ 使得 $\lambda_i(\mathbf{x})\ge0,\quad i=0,\ldots,n,\forall\mathbf{x}\in B_r(\mathbf{x}^0).$ 这表明 $\forall\mathbf{x}\in B_r(\mathbf{x}^0)$ 都是仿射基的凸组合, 因此 $\mathbf{x}\in\Delta$ . 于是我们证明了 $\Delta$ 包含了 $\mathbf{x}^0$ 的一个邻域, 所以 $\mathbf{x}^0$ 为 $\Delta$ 的内点.

正常凸函数在有效域的相对内部总是次可微的. 这就是下面的定理6. 我们仅叙述, 不证明.

定理6 (相对内部点的次可微性) 设 $f:\mathbb{E}\to(-\infty,\infty]$ 为一正常凸函数, $\bar{\mathbf{x}}\in\mathrm{ri}(\mathrm{dom}(f))$ . 则 $\partial f(\bar{\mathbf{x}})$ 非空.

以上定理6的结论可写成以下形式: $\mathrm{ri}(\mathrm{dom}(f))\subset\mathrm{dom}(\partial f).$ 若 $f$ 为凸函数, 则 $\mathrm{dom}(f)$ 是凸集, 因此由定理5, $\mathrm{ri}(\mathrm{dom}(f))\ne\emptyset$ . 于是我们可推出有效域内总有一点次可微.

推论2 设 $f:\mathbb{E}\to(-\infty,\infty]$ 为一正常凸函数. 于是 $\exists\mathbf{x}\in\mathrm{dom}(f):\partial f(\mathbf{x})\ne\emptyset$ .

次微分集合无界的一种情形是, 当有效域的维数严格小于 $\mathbb{E}$ 的维数.

定理7 (当 $\dim(\mathrm{dom}(f))<\dim(\mathbb{E})$ 时次微分集合的无界性) 设 $f:\mathbb{E}\to(-\infty,\infty]$ 为一正常凸函数. 假设 $\dim(\mathrm{dom}(f))<\dim(\mathbb{E})$ , $\mathbf{x}\in\mathrm{dom}(f)$ . 若 $\partial f(\mathbf{x})\ne\emptyset$ , 则 $\partial f(\mathbf{x})$ 是无界集.
证明: 令 $\eta$ 为 $\partial f(\mathbf{x})$ 中的任一向量. 集合 $\mathbb{V}\equiv\mathrm{aff}(\mathrm{dom}(f))-\{\mathbf{x}\}$ ³为一向量空间. 于是 $\dim(\mathbb{V})<\dim(\mathbb{E})$ . 这表明存在非零 $\mathbf{v}\in\mathbb{E}:\langle\mathbf{v,w}\rangle=0,\forall\mathbf{w}\in\mathbb{V}$ . 对 $\forall\beta\in\mathbb{R}$ , $\mathbf{y}\in\mathrm{dom}(f)$ , $f(\mathbf{y})\ge f(\mathbf{x})+\langle\eta,\mathbf{y-x}\rangle=f(\mathbf{x})=\langle\eta+\beta\mathbf{v,y-x}\rangle.$ 于是就有 $\eta+\beta\mathbf{v}\in\partial f(\mathbf{x}),\forall\beta$ .