First Order Methods in Optimization Ch4. Conjugate Functions

最新推荐文章于 2021-04-02 07:16:37 发布

Learner Hu

最新推荐文章于 2021-04-02 07:16:37 发布

阅读量2k

点赞数 3

分类专栏： FOM in Optimization

原文链接：https://download.csdn.net/download/m0_37854871/11562555

版权

FOM in Optimization 专栏收录该内容

10 篇文章

订阅专栏

第四章: 共轭函数

文章目录

第四章: 共轭函数

1. 定义与基本性质

定义1 (共轭函数) 设 $f:\mathbb{E}\to[-\infty,\infty]$ 为一扩充实值函数. 函数 $f^*:\mathbb{E}^*\to[-\infty,\infty]$ 定义为 $f^*(\mathbf{y})=\max\limits_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{y,x}\rangle-f(\mathbf{x})\},\quad y\in\mathbb{E}^*$ 称作 $f$ 的共轭函数.

例1 (指示函数的共轭函数) 设 $f=\delta_C$ , 其中 $C\subset\mathbb{E}$ 为一非空集合. 则对 $\forall\mathbf{y}\in\mathbb{E}^*$ , $f^*(\mathbf{y})=\max\limits_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{y,x}\rangle-\delta_C(\mathbf{x})\}=\max\limits_{\mathbf{x}\in C}\langle\mathbf{y,x}\rangle=\sigma_C(\mathbf{y}).$ 即, 指示函数的共轭函数为同一集合的支撑函数: $\boxed{\delta_C^*=\sigma_C.}$
共轭函数的两个基本性质分别是凸性和闭性, 而这与原函数的闭凸性是无关的.

定理1 (共轭函数的闭凸性) 设 $f:\mathbb{E}\to(-\infty,\infty]$ 为一扩充实值函数. 则其共轭函数 $f^*$ 是闭凸函数.

证明: 注意到 $f^*$ 是若干线性函数的极大函数, 而线性函数显然是闭凸的. 由于极大运算保闭凸性 (见第二章定理2(iii)和定理6(iii)), 所以 $f^*$ 是闭凸函数.

例2 ( $\frac{1}{2}\Vert\cdot\Vert^2+\delta_C$ 的共轭函数) 假设 $\mathbb{E}$ 为欧式空间, $C\subset\mathbb{E}$ 非空. 定义 $f(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2+\delta_C(\mathbf{x})$ . 由第二章例5可知 $\boxed{f^*(\mathbf{y})=\frac{1}{2}\Vert\mathbf{y}\Vert^2-\frac{1}{2}d_C^2(\mathbf{y}).}$ 这里 $f$ 只有当 $C$ 是凸集时才是凸函数, 而 $f^*$ 的凸性则不受 $C$ 的影响 (这与第二章例5的分析也是一致的).

不论何时, 共轭函数必定是闭凸函数. 那它什么时候是正常函数呢? 这时我们需要对原函数 $f$ 加一些条件.

定理2 (共轭函数的正常性) 设 $f:\mathbb{E}\to(-\infty,\infty]$ 为一正常凸函数. 则 $f^*$ 是正常函数.

证明: 由于 $f$ 是正常函数, 所以存在 $\hat{\mathbf{x}}\in\mathbb{E}$ 使得 $f(\hat\mathbf{x})<\infty$ . 由共轭函数的定义, 对 $\forall\mathbf{y}\in\mathbb{E}^*$ , $f^*(\mathbf{y})\ge\langle\mathbf{y,\hat x}\rangle-f(\hat\mathbf{x})>-\infty.$ 我们再来说明 $\exists\mathbf{g}\in\mathbb{E}^*$ , 使得 $f^*(\mathbf{g})<\infty$ . 由第三章推论2 (这里需要凸性), $\exists\mathbf{x}\in\mathrm{dom}(f)$ 使得 $\partial f(\mathbf{x})\ne\emptyset$ . 取 $\mathbf{g}\in\partial f(\mathbf{x})$ . 则由次梯度的定义, 对 $\forall\mathbf{z}\in\mathbb{E}$ , $f(\mathbf{z})\ge f(\mathbf{x})+\langle\mathbf{g,z-x}\rangle.$ 因此 $f^*(\mathbf{g})=\max\limits_{\mathbf{z}\in\mathbb{E}}\{\langle\mathbf{g,z}\rangle-f(\mathbf{z})\}\le\langle\mathbf{g,x}\rangle-f(\mathbf{x})<\infty.$

注1 定理2中我们在证明 $f^*(\mathbf{y})>-\infty$ 时只用到了 $f$ 是正常函数. 这一点在下面定理3的证明中会用到.

共轭函数定义的一个直接推论是Fenchel不等式.

定理3 (Fenchel不等式) 设 $f:\mathbb{E}\to(-\infty,\infty]$ 为一扩充实值正常函数. 则对 $\forall\mathbf{x}\in\mathbb{E},\,\mathbf{y}\in\mathbb{E}^*$ , $f(\mathbf{x})+f^*(\mathbf{y})\ge\langle\mathbf{y,x}\rangle.$ 证明: 由共轭函数的定义, 对 $\forall\mathbf{x}\in\mathbb{E},\,\mathbf{y}\in\mathbb{E}^*$ , $f^*(\mathbf{y})\ge\langle\mathbf{y,x}\rangle-f(\mathbf{x}).$ 因 $f$ 是正常函数, 所以 $f(\mathbf{x})>-\infty,\,f^*(\mathbf{y})>-\infty$ (注1). 若 $f(\mathbf{x})<\infty$ , 则可移项得证; 若 $f(\mathbf{x})=\infty$ , 则由 $f^*(\mathbf{y})>-\infty,\forall\mathbf{y}\in\mathbb{E}^*$ 可直接得证.

注2 Fenchel不等式可看做是Young不等式的推广. 事实上, 考虑 $f(x)=\frac{x^p}{p},\,x\ge0$ , 其中 $\frac{1}{p}+\frac{1}{q}=1,\,1<p,q<\infty$ . 易证 $f^*(y)=\frac{x^q}{q},\,y\ge0$ . 于是由Fenchel不等式, $ab\le\frac{a^p}{p}+\frac{b^q}{q},\quad\forall a,b\ge0.$ 这就是Young不等式.

2. 双共轭

当我们对某一函数做了两次共轭运算时, 就等价于对原来的函数做了一次双共轭运算. 数学上, 对 $f:\mathbb{E}\to[-\infty,\infty]$ 我们定义 $f^{**}(\mathbf{x})=\max\limits_{\mathbf{y}\in\mathbb{E}^*}\{\langle\mathbf{x,y}\rangle-f^*(\mathbf{y})\},\quad\mathbf{x}\in\mathbb{E}.$ 这里我们用到了之前的假设: $\mathbb{E}$ 与 $\mathbb{E}^*$ 在元素上是一一对应的. 下面我们说明, 双共轭函数总是原函数的一个下界.

引理1 ( $f^{**}\le f$ ) 设 $f:\mathbb{E}\to[-\infty,\infty]$ 为一扩充实值函数. 于是 $f(\mathbf{x})\ge f^{**}(\mathbf{x}),\forall\mathbf{x}\in\mathbb{E}$ .

证明: 由共轭函数的定义, 对 $\forall\mathbf{x}\in\mathbb{E},\,\mathbf{y}\in\mathbb{E}^*$ , $f^*(\mathbf{y})\ge\langle\mathbf{y,x}\rangle-f(\mathbf{x}).$ 于是 $f(\mathbf{x})\ge\langle\mathbf{y,x}\rangle-f^*(\mathbf{y}),$ 在右端对 $\mathbf{y}$ 取上确界即得 $f(\mathbf{x})\ge\max\limits_{\mathbf{y}\in\mathbb{E}^*}\{\langle\mathbf{y,x}\rangle-f^*(\mathbf{y})\}=f^{**}(\mathbf{x}).$
若我们还假设 $f$ 是正常闭凸函数, 则其双共轭就等于 $f$ 自身.

定理4 ( $f=f^{**}$ ) 设 $f:\mathbb{E}\to(-\infty,\infty]$ 为一正常闭凸函数. 于是 $f^{**}=f$ .

证明: 由引理1, 我们只需证明 $f^{**}\ge f$ . 我们用反证法证明, 假设 $\exists\mathbf{x}\in\mathbb{E}$ , 使得 $f^{**}(\mathbf{x})\le f(\mathbf{x})$ . 这等价于 $(\mathbf{x},f^{**}(\mathbf{x}))\notin\mathrm{epi}(f)\subset\mathbb{E}\times\mathbb{R}$ . 同前面一样, 我们假定乘积空间 $\mathbb{V}=\mathbb{E}\times\mathbb{R}$ 中的内积定义为 $\langle(\mathbf{u},s),(\mathbf{v},t)\rangle_{\mathbb{V}}=\langle\mathbf{u,v}\rangle+st$ , 这里 $\langle\cdot,\cdot\rangle$ 为 $\mathbb{E}$ 中的内积. 因 $f$ 是正常闭凸函数, 所以 $\mathrm{epi}(f)$ 非空闭凸, 于是由第二章定理11严格分离定理知, $\exists\mathbf{a}\in\mathbb{E}^*,b,c_1,c_2\in\mathbb{R}$ 使得 $\langle\mathbf{a,z}\rangle+bs\le c_1<c_2\le\langle\mathbf{a,x}\rangle+bf^{**}(\mathbf{x}),\quad\forall(\mathbf{z},s)\in\mathrm{epi}(f).$ 移项可得 $\langle\mathbf{a,z-x}\rangle+b(s-f^{**}(\mathbf{x}))\le c_1-c_2\equiv c<0,\quad\forall(\mathbf{z},s)\in\mathrm{epi}(f).$ 我们断言 $b\le0$ . 若不然, 固定 $\mathbf{z}$ , 令 $s$ 趋于 $\infty$ 就与上面的不等式矛盾. 于是就有下面两种情形:

若 $b < 0$ , 则在不等式两边同除 $- b$ 并记 $\mathbf{y}=-\frac{\mathbf{a}}{b}$ , 我们有 $\langle\mathbf{y,z-x}\rangle-s+f^{**}(\mathbf{x})\le\frac{c}{-b}<0,\quad\forall(\mathbf{z},s)\in\mathrm{epi}(f).$ 特别地, 取 $s=f(\mathbf{z})$ (这是因为 $(\mathbf{z},f(\mathbf{z}))\in\mathrm{epi}(f)$ ), 我们有 $\langle\mathbf{y,z}\rangle-f(\mathbf{z})-\langle\mathbf{y,x}\rangle+f^{**}(\mathbf{x})\le\frac{c}{-b}<0,\quad\forall\mathbf{z}\in\mathrm{dom}(f).$ 不等式左端对 $\mathbf{z}$ 取上确界即得 $f^*(\mathbf{y})-\langle\mathbf{y,x}\rangle+f^{**}(\mathbf{x})\le\frac{c}{-b}<0,$ 而这与Fenchel不等式矛盾.
若 $b = 0$ . 因 $f$ 是正常凸函数, 根据定理2, $f^*$ 是正常函数, 所以可取 $\hat\mathbf{y}\in\mathrm{dom}(f^*)$ . 任取 $\epsilon>0$ , 定义 $\hat\mathbf{a}=\mathbf{a}+\epsilon\hat\mathbf{y},\,\hat b=-\epsilon$ . 于是对 $\forall\mathbf{z}\in\mathrm{dom}(f)$ , $\begin{aligned}\langle\hat\mathbf{a},\mathbf{z-x}\rangle+\hat b(f(\mathbf{z})-f^{**}(\mathbf{x}))&=\langle\mathbf{a,z-x}\rangle+\epsilon\left[\langle\hat\mathbf{y},\mathbf{z}\rangle-f(\mathbf{z})+f^{**}(\mathbf{x})-\langle\hat\mathbf{y},\mathbf{x}\rangle\right]\\&\le c+\epsilon\left[\langle\hat\mathbf{y},\mathbf{z}\rangle-f(\mathbf{z})+f^{**}(\mathbf{x})-\langle\hat\mathbf{y},\mathbf{x}\rangle\right]\\&\le c+\epsilon\left[f^*(\hat\mathbf{y})-\langle\hat\mathbf{y},\mathbf{x}\rangle+f^{**}(\mathbf{x})\right]\triangleq\hat c.\end{aligned}$ 由于 $c < 0$ , 故可令 $\epsilon>0$ 充分小以使得 $\hat c<0$ . 这时类似于 $b < 0$ 的情形, 在不等式两边同除 $-\hat b$ 并记 $\tilde\mathbf{y}=-\frac{1}{\hat b}\hat\mathbf{a}$ , 就得到 $\langle\tilde\mathbf{y},\mathbf{z}\rangle-f(\mathbf{z})-\langle\tilde\mathbf{y},\mathbf{x}\rangle+f^{**}(\mathbf{x})\le-\frac{\hat c}{\hat b}<0,\quad\forall\mathbf{z}\in\mathrm{dom}(f).$ 在不等式左端对 $\mathbf{z}$ 取上确界可得 $f^*(\tilde\mathbf{y})-\langle\tilde\mathbf{y},\mathbf{x}\rangle+f^{**}(\mathbf{x})\le\frac{\hat c}{-\hat b}<-0,$ 这又与Fenchel不等式矛盾.

定理4可以用来刻画一些函数的共轭函数.

例3 (支撑函数的共轭函数) 假设 $C\subset\mathbb{E}$ 为一非空集合. 由于 $\mathrm{cl(conv}(C))$ 为闭凸集, 所以 $\delta_{\mathrm{cl(conv}(C))}$ 是闭凸函数, 于是由例1以及定理4, $\sigma^*_{\mathrm{cl(conv}(C))}=\left(\delta^*_{\mathrm{cl(conv}(C))}\right)^*=\delta^{**}_{\mathrm{cl(conv}(C))}=\delta_{\mathrm{cl(conv}(C))}.$ 最后根据第二章引理5, $\sigma_C=\sigma_{\mathrm{cl(conv}(C))}.$ $\boxed{\sigma_C^*=\delta_{\mathrm{cl(conv}(C))}.}$ 这里需要指出, 若 $\mathrm{cl(conv}(C))\ne C$ , 即 $C$ 不是闭凸集, $\delta_C$ 不是闭凸函数. 此时根据例1与例3, $\delta_C^{**}=\sigma_C^*=\delta_{\mathrm{cl(conv}(C))}.$ 于是 $\delta_{\mathrm{cl(conv}(C))}\le\delta_C.$ 特别地, 在 $\mathbf{x}\in \mathrm{cl(conv}(C))\setminus C$ 处, 有 $\delta_{\mathrm{cl(conv}(C))}<\delta_C.$ 这个例子表明, 定理4的条件有时会成为 $f=f^{**}$ 的必要条件.

例4 (极大函数的共轭函数) 考虑函数 $f:\mathbb{R}^n\to\mathbb{R}$ 定义为 $f(\mathbf{x})=\max\{x_1,x_2,\ldots,x_n\}$ . 注意到 $\max\{x_1,x_2,\ldots,x_n\}=\max\limits_{\mathbf{y}\in\Delta_n}\mathbf{y}^T\mathbf{x}=\sigma_{\Delta_n}(\mathbf{x}).$ 于是根据例3以及 $\Delta_n$ 的闭凸性, $\boxed{f^{*}=\delta_{\Delta_n}.}$

例5 ( $\frac{1}{2}\left(\Vert\cdot\Vert^2-d_C^2(\cdot)\right)$ 的共轭函数) 设 $\mathbb{E}$ 为欧式空间, $C\subset\mathbb{E}$ 为一非空闭凸集. 定义 $f(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2-\frac{1}{2}d_C^2(\mathbf{x})$ . 由例2, $f=g^*$ , 其中 $g(\mathbf{y})=\frac{1}{2}\Vert\mathbf{y}\Vert^2+\delta_C(\mathbf{y})$ . 由于 $C$ 非空闭凸, 所以 $g$ 正常闭凸. 再根据定理4, $\boxed{f^*(\mathbf{y})=g^{**}(\mathbf{y})=g(\mathbf{y})=\frac{1}{2}\Vert\mathbf{y}\Vert^2+\delta_C(\mathbf{y}).}$

3. 共轭函数的运算法则

本节我们针对可分、复合可逆线性变换以及数乘三种情形讨论共轭函数的运算法则. 它们的证明都是直接的.

定理5 (可分函数的共轭函数) 设 $g:\mathbb{E}_1\times\mathbb{E}_2\times\mathbb{E}_p\to(-\infty,\infty]$ 定义为 $g(\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_p)=\sum_{i=1}^pf_i(\mathbf{x}_i)$ , 其中 $f_i:\mathbb{E}_i\to(-\infty,\infty]$ 为一正常函数, $i=1,2,\ldots,p$ . 则 $g^*(\mathbf{y}_1,\mathbf{y}_2,\ldots,\mathbf{y}_p)=\sum_{i=1}^pf_i^*(\mathbf{y}_i),\quad\forall\mathbf{y}_i\in\mathbb{E}_i^*,\quad i=1,2,\ldots,p.$ 证明: 对 $\forall(\mathbf{y}_1,\mathbf{y}_2,\ldots,\mathbf{y}_p)\in\mathbb{E}_1^*\times\mathbb{E}_2^*\times\cdots\times\mathbb{E}_p^*$ , 我们有 $\begin{aligned}g^*(\mathbf{y}_1,\mathbf{y}_2,\ldots,\mathbf{y}_p)&=\max\limits_{\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_p}\{\langle(\mathbf{y}_1,\mathbf{y}_2,\ldots,\mathbf{y}_p),(\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_p)\rangle-g(\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_p)\}\\&=\max\limits_{\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_p}\left\{\sum_{i=1}^p\langle\mathbf{y}_i,\mathbf{x}_i\rangle-\sum_{i=1}^pf_i(\mathbf{x}_i)\right\}\\&=\sum_{i=1}^p\max\limits_{\mathbf{x}_i}\{\langle\mathbf{y}_i,\mathbf{x}_i\rangle-f_i(\mathbf{x}_i)\}\\&=\sum_{i=1}^pf_i^*(\mathbf{y}_i).\end{aligned}$

定理6 ( $f(\mathcal{A}(\mathbf{x-a}))+\langle\mathbf{b,x}\rangle+c$ 的共轭函数) 设 $f:\mathbb{E}\to(-\infty,\infty]$ 为一扩充实值函数, $\mathcal{A}:\mathbb{V}\to\mathbb{E}$ 为一可逆线性变换, $\mathbf{a}\in\mathbb{V},\,\mathbf{b}\in\mathbb{V}^*, c\in\mathbb{R}$ . 于是函数 $g(\mathbf{x})=f(\mathcal{A}(\mathbf{x-a}))+\langle\mathbf{b,x}\rangle+c$ 的共轭函数为 $g^*(\mathbf{y})=f^*\left(\left(\mathbf{A}^T\right)^{-1}(\mathbf{y-b})\right)+\langle\mathbf{a,y}\rangle-c-\langle\mathbf{a,b}\rangle,\quad\forall\mathbf{y}\in\mathbb{V}^*.$ 证明: 做变量替换 $\mathbf{z}=\mathcal{A}(\mathbf{x-a})\Leftrightarrow\mathbf{x}=\mathcal{A}^{-1}(\mathbf{z})+\mathbf{a}$ , 于是对 $\forall\mathbf{y}\in\mathbb{V}^*$ , $\begin{aligned}g^*(\mathbf{y})&=\max\limits_{\mathbf{x}}\{\langle\mathbf{y,x}\rangle-g(\mathbf{x})\}\\&=\max\limits_{\mathbf{x}}\{\langle\mathbf{y,x}\rangle-f(\mathcal{A}(\mathbf{x-a}))-\langle\mathbf{b,x}\rangle-c\}\\&=\max\limits_{\mathbf{z}}\left\{\left\langle\mathbf{y},\mathcal{A}^{-1}(\mathbf{z})+\mathbf{a}\right\rangle-f(\mathbf{z})-\left\langle\mathbf{b},\mathcal{A}^{-1}(\mathbf{z})+\mathbf{a}\right\rangle-c\right\}\:(\mathbf{x}与\mathbf{z}是一一对应的)\\&=\max\limits_{\mathbf{z}}\left\{\left\langle\mathbf{y-b},\mathcal{A}^{-1}(\mathbf{z})\right\rangle-f(\mathbf{z})+\langle\mathbf{a,y}\rangle-\langle\mathbf{a,b}\rangle-c\right\}\\&=\max\limits_{\mathbf{z}}\left\{\left\langle\left(\mathcal{A}^{-1}\right)^T(\mathbf{y-b}),\mathbf{z}\right\rangle-f(\mathbf{z})+\langle\mathbf{a,y}\rangle-\langle\mathbf{a,b}\rangle-c\right\}\\&=f^*\left(\left(\mathbf{A}^T\right)^{-1}(\mathbf{y-b})\right)+\langle\mathbf{a,y}\rangle-c-\langle\mathbf{a,b}\rangle.\end{aligned}$

定理7 ( $\alpha f(\cdot)$ 与 $\alpha f(\cdot/\alpha)$ 的共轭函数) 设 $f:\mathbb{E}\to(-\infty,\infty]$ 为一扩充实值函数, $\alpha\in\mathbb{R}_{++}$ .
(i) $g(\mathbf{x})=\alpha f(\mathbf{x})$ 的共轭函数为¹ $g^*(\mathbf{y})=\alpha f^*\left(\frac{\mathbf{y}}{\alpha}\right),\quad\mathbf{y}\in\mathbb{E}^*.$ (ii) $h(\mathbf{x})=\alpha f\left(\frac{\mathbf{x}}{\alpha}\right)$ 的共轭函数为 $h^*(\mathbf{y})=\alpha f^*(\mathbf{y}),\quad\mathbf{y}\in\mathbb{E}^*.$ 证明: (i) 对 $\forall\mathbf{y}\in\mathbb{E}^*$ , $\begin{aligned}g^*(\mathbf{y})&=\max\limits_{\mathbf{x}}\{\langle\mathbf{y,x}\rangle-g(\mathbf{x})\}\\&=\max\limits_{\mathbf{x}}\{\langle\mathbf{y,x}\rangle-\alpha f(\mathbf{x})\}\\&=\alpha\max\limits_{\mathbf{x}}\left\{\left\langle\frac{\mathbf{y}}{\alpha},\mathbf{x}\right\rangle-f(\mathbf{x})\right\}\\&=\alpha f^*\left(\frac{\mathbf{y}}{\alpha}\right).\end{aligned}$ (ii) 对 $\forall\mathbf{y}\in\mathbb{E}^*$ , $\begin{aligned}h^*(\mathbf{y})&=\max\limits_{\mathbf{x}}\{\mathbf{y,x}\rangle-h(\mathbf{x})\}\\&=\max\limits_{\mathbf{x}}\left\{\langle\mathbf{y,x}\rangle-\alpha f\left(\frac{\mathbf{x}}{\alpha}\right)\right\}\\&=\alpha\max\limits_{\alpha}\left\{\left\langle\mathbf{y},\frac{\mathbf{x}}{\alpha}\right\rangle-f\left(\frac{\mathbf{x}}{\alpha}\right)\right\}\\&\overset{\mathbf{z}\leftarrow\frac{\mathbf{x}}{\alpha}}{=}\alpha\max\limits_{\mathbf{x}}\{\langle\mathbf{y,z}\rangle-f(\mathbf{z})\}\\&=\alpha f^*(\mathbf{y}).\end{aligned}$

由定理7可知, $(\alpha f)^{**}=\alpha f^{**}$ .

我们将本小节推导的运算法则总结如下:

$g(\mathbf{x})$	$g^*(\mathbf{y})$	定理
$\sum_{i=1}^mf_i(\mathbf{x}_i)$	$\sum_{i=1}^mf_i^*(\mathbf{y}_i)$	5
$\alpha f(\mathbf{x})\:(\alpha>0)$	$\alpha f^*(\mathbf{y}/\alpha)$	7
$\alpha f(\mathbf{x}/\alpha)\:(\alpha>0)$	$\alpha f^*(\mathbf{y})$	7
$f(\mathcal{A}(\mathbf{x-a}))+\langle\mathbf{b,x}\rangle+c$	$f^*\left(\left(\mathcal{A}^T\right)^{-1}(\mathbf{y-b})\right)+\langle\mathbf{a,y-b}\rangle-c$	6

4. 共轭函数的计算举例

本小节我们将给出具体计算一些凸函数的共轭函数的示例, 其中有一维的例子, 也不乏多维的例子. 特别地, 我们可以根据Fenchel不等式给出一系列有用的不等式; 并且由于共轭函数必定是凸函数, 我们可以得到一些关于函数凸性的结果.

4.1 指数函数

设 $f:\mathbb{R}\to\mathbb{R}$ 定义为指数函数 $f(x)=e^x$ . 于是对 $\forall y\in\mathbb{R}$ , $f^*(y)=\max_x\{xy-e^x\}.$

当 $y < 0$ 时, $f^*(y)=\infty$ (令 $x\to-\infty$ );
当 $y = 0$ 时, $f^*(y)=0$ (令 $x\to-\infty$ );
当 $y > 0$ 时, 在 $x=\tilde x=\log y$ 时取到最大, 为 $f^*(y)=y\log y-y$ .

由于 $y\log y-y\to0,\:(y\to\infty)$ , 所以我们可以写成 $\boxed{f^*(y)=\left\{\begin{array}{ll}y\log y-y, & y\ge0,\\\infty, & y<0.\end{array}\right.}$

4.2 负对数函数

设 $f:\mathbb{R}\to(-\infty,\infty]$ 定义为负对数函数 $f(x)=\left\{\begin{array}{ll}-\log(x), & x>0,\\\infty, & x\le0.\end{array}\right.$ 则对 $\forall y\in\mathbb{R}$ , $f^*(y)=\max_x\{xy-f(x)\}=\max_{x>0}\{xy+\log(x)\}.$

当 $y\ge0$ 时, $f^*(y)=\infty$ (令 $x\to\infty$ );
当 $y < 0$ 时, 在 $x=\tilde x=-\frac{1}{y}$ 处取到最大, 为 $f^*(y)=-1-\log(-y)$ .

$\boxed{f^*(y)=\left\{\begin{array}{ll}-1-\log(-y), & y <0,\\\infty, & y\ge0.\end{array}\right.}$

4.3 Hinge损失函数

考虑一维Hinge损失函数 $f:\mathbb{R}\to\mathbb{R}$ 为 $f(x)=\max\{1-x,0\}.$ 于是对 $\forall y\in\mathbb{R}$ , $f^*(y)=\max_x[xy-\max\{1-x,0\}]=\max_x\min\{(y+1)x-1,xy\}.$ 而内部的极小得到的是一个连续的折线函数, 其中在 $x < 1$ 时斜率为 $1 + y$ , 在 $x\ge1$ 时斜率为 $y$ . 因此 $f^*(y)<\infty$ 当且仅当 $-1\le y\le 0$ , 且此时 $f^*(y)=y$ . $\boxed{f^*(y)=y+\delta_{[-1,0]}(y),\quad y\in\mathbb{R}.}$

4.4 $\frac{1}{p}|\cdot|^p(p>1)$

设 $f:\mathbb{R}\to\mathbb{R}$ 定义为 $f(x)=\frac{1}{p}|x|^p$ , 其中 $p > 1$ . 于是对 $\forall y\in\mathbb{R}$ , $f^*(y)=\max_x\left\{xy-\frac{1}{p}|x|^p\right\}.$ 由于内部是处处可微的凹函数, 因此最大取在导数为 $0$ 的点 $\tilde x$ 处, 即满足 $y-\mathrm{sgn}(\tilde x)|\tilde x|^{p-1}=0.$ 因此 $\mathrm{sgn}(y)=\mathrm{sgn}(\tilde x)$ , 从而 $|y|=|\tilde x|^{p-1}\Rightarrow\tilde x=\mathrm{sgn}|y|^{\frac{1}{p-1}}$ . 因此 $f^*(y)=\tilde xy-\frac{1}{p}|\tilde x|^p=|y|^{\frac{p}{p-1}}-\frac{1}{p}|y|^{\frac{p}{p-1}}=\frac{1}{q}|y|^q,$ 这里 $q$ 是满足 $\frac{1}{p}+\frac{1}{q}=1$ 的正数. 这与注2是统一的.

4.5 $-\frac{(\cdot)^p}{p}(0<p<1)$

设 $f:\mathbb{R}\to(-\infty,\infty]$ 定义为 $f(x)=\left\{\begin{array}{ll}-\frac{x^p}{p}, & x\ge0,\\\infty, & x<0.\end{array}\right.$ 对 $\forall y\in\mathbb{R}$ , $f^*(y)=\max_x\{xy-f(x)\}=\max_{x\ge0}\left\{g(x)\equiv xy+\frac{x^p}{p}\right\}.$

当 $y\ge0$ , $f^*(y)=\infty$ (令 $x\to\infty$ );
当 $y < 0$ , 在 $x=\tilde x=(-y)^{\frac{1}{p-1}}>0$ 处取到最大值, 为 $f^*(y)=\tilde xy+\frac{\tilde x^p}{p}=-(-y)^{\frac{p}{p-1}}+\frac{1}{p}(-y)^{\frac{p}{p-1}}=-\frac{(-y)^q}{q},$ 这里 $q$ 是满足 $\frac{1}{p}+\frac{1}{q}=1$ 的负数².

$\boxed{f^*(y)=\left\{\begin{array}{ll}-\frac{(-y)^q}{q}, & y<0,\\\infty, & y\ge0.\end{array}\right.}$

4.6 严格凸二次函数

设 $f:\mathbb{R}^n\to\mathbb{R}$ 定义为 $f(\mathbf{x})=\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}+c$ , 其中 $\mathbf{A}\in\mathbb{S}_{++}^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R}$ . 假定 $\mathbb{R}^n$ 中所赋的内积为点积, 于是对 $\forall\mathbf{y}\in\mathbb{R}^n$ , $\begin{aligned}f^*(\mathbf{y})&=\max_{\mathbf{x}}\{\mathbf{y}^T\mathbf{x}-f(\mathbf{x})\}\\&=\max_{\mathbf{x}}\left\{\mathbf{y}^T\mathbf{x}-\frac{1}{2}\mathbf{x}^T\mathbf{Ax}-\mathbf{b}^T\mathbf{x}-c\right\}\\&=\max_{\mathbf{x}}\left\{-\frac{1}{2}\mathbf{x}^T\mathbf{Ax}-(\mathbf{b-y})^T\mathbf{x}-c\right\}\\&=\frac{1}{2}(\mathbf{y-b})^T\mathbf{A}^{-1}(\mathbf{y-b})-c.\end{aligned}$ 这是因为内部函数为凹函数, 从而最大在梯度为 $0$ 的地方取得, 也就是 $\tilde\mathbf{x}=\mathbf{A}^{-1}(\mathbf{y-b})$ .

4.7 凸二次函数

设 $f:\mathbb{R}^n\to\mathbb{R}$ 定义为 $f(\mathbf{x})=\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}+c$ , 其中 $\mathbf{A}\in\mathbb{S}_+^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R}$ . 此例与前例唯一的区别在于这里的 $\mathbf{A}$ 仅仅是半正定矩阵. 对 $\forall\mathbf{y}\in\mathbb{R}^n$ , $f^*(\mathbf{y})=\max_{\mathbf{x}}\{\mathbf{y}^T\mathbf{x}-f(\mathbf{x})\}=\max_{\mathbf{x}}\left\{g(\mathbf{x})\equiv-\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+(\mathbf{y-b})^T\mathbf{x}-c\right\}.$ 由于内部为可微凹函数, 所以最大必在梯度为 $0$ 处取得, 也即 $\tilde\mathbf{x}$ 满足 $\mathbf{A}\tilde\mathbf{x}=\mathbf{y-b}.$

当 $\mathbf{y-b}\in\mathrm{Range}(\mathbf{A})$ 时, $\tilde\mathbf{x}$ 可以取到, 且由无穷多解. 例如可取³其中的2-范数最小解 $\tilde\mathbf{x}=\mathbf{A}^{\dagger}(\mathbf{y-b})$ , 这里 $\mathbf{A}^{\dagger}$ 为 $\mathbf{A}$ 的Moore-Penrose伪逆⁴. 此时 $\begin{aligned}f^*(\mathbf{y})&=-\frac{1}{2}\tilde\mathbf{x}^T\mathbf{A\tilde x}-(\mathbf{b-y})^T\mathbf{\tilde x}-c\\&=-\frac{1}{2}(\mathbf{y-b})^T\mathbf{A^{\dagger}AA^{\dagger}}(\mathbf{y-b})-(\mathbf{b-y})^T\mathbf{A}^{\dagger}(\mathbf{y-b})-c\\&=\frac{1}{2}(\mathbf{y-b})^T\mathbf{A^{\dagger}(y-b)}-c,\end{aligned}$ 这里用到了伪逆的性质 $\mathbf{A^{\dagger}AA^{\dagger}}=\mathbf{A}^{\dagger}$ 以及 $\mathbf{A}$ 是对称矩阵的事实.
当 $\mathbf{y-b}\notin\mathrm{Range}(\mathbf{A})$ 时, 我们证明 $f^*(\mathbf{y})=\infty$ . 因为 $\mathbf{A}\in\mathbb{S}^n_+$ , 所以 $\mathrm{Range}(\mathbf{A})=\mathrm{Null}(\mathbf{A}^T)^{\perp}=\mathrm{Null}(\mathbf{A})^{\perp}$ . 故根据 $\mathbf{y-b}\not\in\mathrm{Null}(\mathbf{A})^{\perp}$ 可推出存在 $\mathbf{v}\in\mathrm{Null}(\mathbf{A})$ 使得 $(\mathbf{y-b})^T\mathbf{v}\ne0$ ;不妨设 $\mathbf{(y-b)}^T\mathbf{v}>0$ . 注意对 $\forall\alpha\in\mathbb{R}$ , $g(\alpha\mathbf{v})=\alpha(\mathbf{y-b})^T\mathbf{v}-c,$ 因此当 $\alpha\to\infty$ , $g(\alpha\mathbf{v})\to\infty$ . 故得证.

$\boxed{f^*(\mathbf{y})=\left\{\begin{array}{ll}\frac{1}{2}(\mathbf{y-b})^T\mathbf{A}^{\dagger}(\mathbf{y-b})-c, & \mathbf{y-b}\in\mathrm{Range}(\mathbf{A}),\\\infty, & \mathbf{y-b}\notin\mathrm{Range}(\mathbf{A}).\end{array}\right.}$

4.8 负熵函数

设 $f:\mathbb{R}^n\to(-\infty,\infty]$ 定义为 $f(\mathbf{x})=\left\{\begin{array}{ll}\sum_{i=1}^nx_i\log x_i, & \mathbf{x}\ge\mathbf{0},\\\infty, & 其它.\end{array}\right.$ 因为此函数是可分的, 因此我们只需求一维情形的共轭函数. 定义 $g(t)=t\log t,\,t\ge0; \infty,\,t<0$ . 对 $\forall s\in\mathbb{R}$ , $g^*(s)=\max_t\{ts-g(t)\}=\max_{t\ge0}\{ts-t\log t\}=e^{s-1},$ 其中最大值在 $\tilde t=e^{s-1}$ 取到. 再由定理5, 对 $\forall\mathbf{y}\in\mathbb{R}^n$ , 就有 $\boxed{f^*(\mathbf{y})=\sum_{i=1}^ng^*(y_i)=\sum_{i=1}^ne^{y_i-1}.}$

4.9 负对数和

设 $f:\mathbb{R}^n\to\mathbb{R}$ 定义为 $f(\mathbf{x})=\left\{\begin{array}{ll}-\sum_{i=1}^n\log x_i, & \mathbf{x}>\mathbf{0},\\\infty, & 其它.\end{array}\right.$ 再次, 由于 $f$ 可分, 根据4.2节负对数函数的例和定理5可得 $\boxed{f^*(\mathbf{y})=\left\{\begin{array}{ll}-n-\sum_{i=1}^n\log(-y_i), & \mathbf{y}<\mathbf{0},\\\infty, & 其它.\end{array}\right.}$

4.10 单位单纯形上的负熵函数

设 $f:\mathbb{R}^n\to\mathbb{R}$ 定义为 $f(\mathbf{x})=\left\{\begin{array}{ll}\sum_{i=1}^nx_i\log x_i, & \mathbf{x}\in\Delta_n,\\\infty, & 其它.\end{array}\right.$ 对 $\forall\mathbf{y}\in\mathbb{R}^n$ , $f^*(\mathbf{y})=\max_{\mathbf{x}}\left\{\sum_{i=1}^ny_ix_i-\sum_{i=1}^nx_i\log x_i:\sum_{i=1}^nx_i=1,\,x_1,x_2,\ldots,x_n\ge0\right\}.$ 根据第三章例26, 上述极大问题的最优解为 $x_i^*=\frac{e^{y_i}}{\sum_{j=1}^ne^{y_j}},\quad i=1,2,\ldots,n,$ 对应的最优值为 $\boxed{f^*(\mathbf{y})=\log\left(\sum_{j=1}^ne^{y_j}\right).}$ 即对数和指数函数.

4.11 对数和指数函数

设 $g:\mathbb{R}^n\to\mathbb{R}$ 定义为 $g(\mathbf{x})=\log\left(\sum_{j=1}^ne^{x_j}\right).$ 由上一例, $g=f^*$ . 而 $f$ 是正常闭凸函数, 根据定理4, $f^{**}=f$ . 所以 $\boxed{g^*(\mathbf{y})=\left\{\begin{array}{ll}\sum_{i=1}^ny_i\log y_i, & \mathbf{y}\in\Delta_n,\\\infty, & 其它.\end{array}\right.}$

4.12 范数

设 $f:\mathbb{E}\to\mathbb{R}$ 定义为 $f(\mathbf{x})=\Vert\mathbf{x}\Vert$ . 根据第二章例12, $f=\sigma_{B_{\Vert\cdot\Vert_*}[\mathbf{0},1]},$ 这里我们使用了欧式空间 $\mathbb{E}$ 与 $\mathbb{E}^{**}$ 在元素上一一对应, 且对应元素范数数值相等的性质. 再由例3, $f^*=\delta_{\mathrm{cl(conv}(B_{\Vert\cdot\Vert_*}[\mathbf{0},1]))},$ 但 $B_{\Vert\cdot\Vert_*}[\mathbf{0},1]$ 本身就是闭凸集, 所以 $\mathrm{cl(conv}(B_{\Vert\cdot\Vert_*}[\mathbf{0},1]))=B_{\Vert\cdot\Vert_*}[\mathbf{0},1]$ . 因此对 $\forall\mathbf{y}\in\mathbb{E}^*$ , $\boxed{f^*(\mathbf{y})=\delta_{B_{\Vert\cdot\Vert_*}[\mathbf{0},1]}(\mathbf{y})=\left\{\begin{array}{ll}0, & \Vert\mathbf{y}\Vert_*\le1,\\\infty, & 其它.\end{array}\right.}$

4.13 下半球面

设 $f:\mathbb{E}\to(-\infty,\infty]$ 定义为 $f(\mathbf{x})=\left\{\begin{array}{ll}-\sqrt{1-\Vert\mathbf{x}\Vert^2}, & \Vert\mathbf{x}\Vert\le1,\\\infty, & 其它.\end{array}\right.$ 为计算其共轭函数, 我们先依定义写出如下的二次极大化形式: 对 $\forall\mathbf{y}\in\mathbb{E}^*$ , $\begin{aligned}f^*(\mathbf{y})&=\max_{\mathbf{x}}\left\{\langle\mathbf{y,x}\rangle+\sqrt{1-\Vert\mathbf{x}\Vert^2}:\Vert\mathbf{x}\Vert\le1\right\}\\&=\max_{\alpha\in[0,1]}\max_{\mathbf{x}:\Vert\mathbf{x}\Vert=\alpha}\left\{\langle\mathbf{y,x}\rangle+\sqrt{1-\alpha^2}\right\}\\ &=\max_{\alpha\in[0,1]}\left\{\alpha\Vert\mathbf{y}\Vert_*+\sqrt{1-\alpha^2}\right\},\end{aligned}$ 其中最后一个等式是根据对偶范数的定义. 由于内部关于 $\alpha$ 的函数是凹函数, 所以令导数为0, 可得内部在 $[0, 1]$ 上的最大取在 $\tilde\alpha=\frac{\Vert\mathbf{y}\Vert_*}{\sqrt{\Vert\mathbf{y}\Vert_*^2+1}}.$ 此时最大值即为 $\boxed{f^*(\mathbf{y})=\sqrt{\Vert\mathbf{y}\Vert_*^2+1}.}$ 利用定理7(ii), 我们可以将此结果推广至任意半径的下半球. 设 $f_{\alpha}(\mathbf{x})=\left\{\begin{array}{ll}-\sqrt{\alpha^2-\Vert\mathbf{x}\Vert^2}, & \Vert\mathbf{x}\Vert\le\alpha,\\\infty, & 其它,\end{array}\right.$ 这里 $\alpha\in\mathbb{R}_{++}$ 为半径. 此时 $f=f_1$ . 易知 $f_{\alpha}(\mathbf{x})=\alpha f(\frac{\mathbf{x}}{\alpha})$ , 所以对 $\forall\mathbf{y}\in\mathbb{E}^*$ , $\boxed{f^*_{\alpha}(\mathbf{y})=\alpha f^*(\mathbf{y})=\alpha\sqrt{1+\Vert\mathbf{y}\Vert_*^2}.}$

4.14 $\sqrt{\alpha^2+\Vert\cdot\Vert^2}$

设 $g_{\alpha}:\mathbb{E}\to\mathbb{R}$ 定义为 $g_{\alpha}=\sqrt{\alpha^2+\Vert\mathbf{x}\Vert^2}$ , 其中 $\alpha>0$ . 类似于4.13节, $g_{\alpha}(\mathbf{x})=\alpha g(\frac{\mathbf{x}}{\alpha})$ , 其中 $g(\mathbf{x})=\sqrt{1+\Vert\mathbf{x}\Vert^2}$ . 再由4.13节, 即知 $g=f^*$ , 其中 $f(\mathbf{y})=\left\{\begin{array}{ll}-\sqrt{1-\Vert\mathbf{y}\Vert_*^2}, & \Vert\mathbf{y}\Vert_*\le1,\\\infty, & 其它.\end{array}\right.$ 易验证 $f$ 是正常闭凸函数, 于是由定理4, $g^*=f^{**}=f$ . 最后根据定理7(ii), 对 $\forall\mathbf{y}\in\mathbb{E}^*$ , $\boxed{g_{\alpha}^*(\mathbf{y})=\alpha g^*(\mathbf{y})=\alpha f^*(\mathbf{y})=\left\{\begin{array}{ll}-\alpha\sqrt{1-\Vert\mathbf{y}\Vert_*^2}, & \Vert\mathbf{y}\Vert_*\le1,\\\infty, & 其它.\end{array}\right.}$

4.15 范数平方

设 $f:\mathbb{E}\to\mathbb{R}$ 定义为 $f(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2$ , 其中 $\Vert\cdot\Vert$ 为 $\mathbb{E}$ 中的范数. 对 $\forall\mathbf{y}\in\mathbb{E}^*$ , $\begin{aligned}f^*(\mathbf{y})=\max_{\mathbf{x}}\left\{\langle\mathbf{y,x}\rangle-\frac{1}{2}\Vert\mathbf{x}\Vert^2\right\}&=\max_{\alpha\ge0}\max_{\mathbf{x}:\Vert\mathbf{x}\Vert=\alpha}\left\{\langle\mathbf{y,x}\rangle-\frac{1}{2}\alpha^2\right\}\\ &=\max_{\alpha\ge0}\left\{\alpha\Vert\mathbf{y}\Vert_*-\frac{1}{2}\alpha^2\right\}\\ &=\frac{1}{2}\Vert\mathbf{y}\Vert_*^2,\end{aligned}$ 其中第三个等号是根据对偶范数的定义. $\boxed{f^*(\mathbf{y})=\frac{1}{2}\Vert\mathbf{y}\Vert_*^2.}$

4.16 共轭函数计算小结

$f(\mathbf{x})$	$\mathrm{dom}(f)$	$f^*$	假设条件	小节或例号
$e^x$	$\mathbb{R}$	$y\log y-y,\,y\ge0$	-	4.1
$-\log x$	$\mathbb{R}_{++}$	$-1-\log(-y),\,y<0$	-	4.2
$max\{1-x,0\}$	$\mathbb{R}$	$y+\delta_{[-1,0]}(y)$	-	4.3
$\frac{1}{p}\mathrm{abs}(x)^p$	$\mathbb{R}$	$\frac{1}{q}\mathrm{abs}(y)^q$	$p>1,\,\frac{1}{p}+\frac{1}{q}=1$	4.4
$-\frac{x^p}{p}$	$\mathbb{R}_+$	$-\frac{(-y)^q}{q},\,y<0$	$0<p<1,\,\frac{1}{p}+\frac{1}{q}=1$	4.5
$\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}+c$	$\mathbb{R}^n$	$\frac{1}{2}(\mathbf{y-b})^T\mathbf{A}^{-1}(\mathbf{y-b})-c$	$\mathbf{A}\in\mathbb{S}^n_{++},\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R}$	4.6
$\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}+c$	$\mathbb{R}^n$	$\frac{1}{2}(\mathbf{y-b})^T\mathbf{A}^{\dagger}(\mathbf{y-b})-c,\,\mathbf{y}\in\mathbf{b}+\mathrm{Range}(\mathbf{A})$	$\mathbf{A}\in\mathbb{S}_+^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R}$	4.7
$\sum_{i=1}^nx_i\log x_i$	$\mathbb{R}^n_+$	$\sum_{i=1}^ne^{y_i-1}$	-	4.8
$\sum_{i=1}^nx_i\log x_i$	$\Delta_n$	$\log\left(\sum_{i=1}^ne^{y_i}\right)$	-	4.10
$-\sum_{i=1}^n\log x_i$	$\mathbb{R}^n_{++}$	$-n-\sum_{i=1}^n\log(-y_i),\,\mathbf{y}\lt\mathbf{0}$	-	4.9
$\log\left(\sum_{i=1}^ne^{x_i}\right)$	$\mathbb{R}^n$	$\sum_{i=1}^ny_i\log y_i,\,\mathbf{y}\in\Delta_n$	-	4.11
$max_i\{x_i\}$	$\mathbb{R}^n$	$\delta_{\Delta_n}(\mathbf{y})$	-	4
$\delta_C(\mathbf{x})$	$C$	$\sigma_C(\mathbf{y})$	$\emptyset\ne C\subset\mathbb{E}$	1
$\sigma_C(\mathbf{x})$	$\mathrm{dom}(\sigma_C)$	$\delta_{\mathrm{cl(conv}(C))}(\mathbf{y})$	$\emptyset\ne C\subset\mathbb{E}$	3
$\Vert\mathbf{x}\Vert$	$\mathbb{E}$	$\delta_{B_{\Vert\cdot\Vert_*}[\mathbf{0},1]}(\mathbf{y})$	-	4.12
$-\sqrt{\alpha^2-\Vert\mathbf{x}\Vert^2}$	$B[\mathbf{0},\alpha]$	$\alpha\sqrt{\Vert\mathbf{y}\Vert_*^2+1}$	$\alpha>0$	4.13
$\sqrt{\alpha^2+\Vert\mathbf{x}\Vert^2}$	$\mathbb{E}$	$-\alpha\sqrt{1-\Vert\mathbf{y}\Vert_^2},\,\mathbf{y}\in B_{\Vert\cdot\Vert_}[\mathbf{0},1]$	$\alpha>0$	4.14
$\frac{1}{2}\Vert\mathbf{x}\Vert^2$	$\mathbb{E}$	$\frac{1}{2}\Vert\mathbf{y}\Vert_*^2$	-	4.15
$\frac{1}{2}\Vert\mathbf{x}\Vert^2+\delta_C(\mathbf{x})$	$C$	$\frac{1}{2}\Vert\mathbf{y}\Vert^2-\frac{1}{2}d_C^2(\mathbf{y})$	$\emptyset\ne C\subset\mathbb{E}$ , $\mathbb{E}$ 为欧式空间	2
$\frac{1}{2}\Vert\mathbf{x}\Vert^2-\frac{1}{2}d_C^2(\mathbf{x})$	$\mathbb{E}$	$\frac{1}{2}\Vert\mathbf{y}\Vert^2+\delta_C(\mathbf{y})$	$\emptyset\ne C\subset\mathbb{E}$ 为闭凸集, $\mathbb{E}$ 为欧式空间	5

4.17 Fenchel对偶定理

共轭函数自然地出现在对偶问题中. 这在著名的Fenchel对偶定理中最为突出. 考虑问题 $(P)\,\min\limits_{\mathbf{x}\in\mathbb{E}}f(\mathbf{x})+g(\mathbf{x}).$ 引入分裂变量 $\mathbf{z}$ 得到等价的问题 $\min_{\mathbf{x,z}\in\mathbb{E}}\{f(\mathbf{x})+g(\mathbf{z}):\mathbf{x=z}\}$ 并写出此问题的Lagrange函数 $L(\mathbf{x,z;y})=f(\mathbf{x})+g(\mathbf{z})+\langle\mathbf{y,z-x}\rangle=-[\langle\mathbf{y,x}\rangle-f(\mathbf{x})]-[\langle-\mathbf{y,z}\rangle-g(\mathbf{z})].$ 对原始变量 $\mathbf{x,z}$ 极小化Lagrange函数并根据共轭函数的定义就有 $q(\mathbf{y})=\min_{\mathbf{x,z}}L(\mathbf{x,z;y})=-f^*(\mathbf{y})-g^*(\mathbf{-y}).$ 于是得到如下对偶问题, 我们称之为Fenchel对偶 (Fenchel’s dual): $(D)\,\max_{\mathbf{y}\in\mathbb{E}^*}\{-f^*(\mathbf{y})-g^*(-\mathbf{y})\}.$ 而Fenchel对偶定理⁵则给出了对于问题 $(P)$ 和 $(D)$ 强对偶性成立的条件.

定理8 (Fenchel对偶定理) 设 $f,g:\mathbb{E}\to(-\infty,\infty]$ 为正常凸函数. 若 $\mathrm{ri(dom}(f))\cap\mathrm{ri(dom}(g))\ne\emptyset$ , 则 $\min_{\mathbf{x}\in\mathbb{E}}\{f(\mathbf{x})+g(\mathbf{x})\}=\max_{\mathbf{y}\in\mathbb{E}^*}\{-f^*(\mathbf{y})-g^*(-\mathbf{y})\},$ 并且若右端最优值有限, 则它必可以达到.

5. 极小卷积与共轭

本节我们将说明在共轭运算下, 加法与极小卷积运算在某种意义下是对偶的.

定理9 (极小卷积的共轭) 对任意两个正常函数 $h_1,h_2:\mathbb{E}\to(-\infty,\infty]$ , 均有 $(h_1\square h_2)^*=h_1^*+h_2^*$ 成立.

证明: 对任意 $\mathbf{y}\in\mathbb{E}^*$ , $\begin{aligned}(h_1\square h_2)^*(\mathbf{y})&=\max_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{y,x}\rangle-(h_1\square h_2)(\mathbf{x})\}\\&=\max_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{y,x}\rangle-\min_{\mathbf{u}\in\mathbb{E}}\{h_1(\mathbf{u})+h_2(\mathbf{x-u})\}\}\\&=\max_{\mathbf{x}\in\mathbb{E}}\max_{\mathbf{u}\in\mathbb{E}}\{\langle\mathbf{y,x}\rangle-h_1(\mathbf{u})-h_2(\mathbf{x-u})\}\\&=\max_{\mathbf{x}\in\mathbb{E}}\max_{\mathbf{u}\in\mathbb{E}}\{\langle\mathbf{y,x-u}\rangle+\langle\mathbf{y,u}\rangle-h_1(\mathbf{u})-h_2(\mathbf{x-u})\}\\&=\max_{\mathbf{u}\in\mathbb{E}}\max_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{y,x-u}\rangle+\langle\mathbf{y,u}\rangle-h_1(\mathbf{u})-h_2(\mathbf{x-u})\}\\&=\max_{\mathbf{u}\in\mathbb{E}}\{h_2^*(\mathbf{y})+\langle\mathbf{y,u}\rangle-h_1(\mathbf{u})\}\\&=h_1^*(\mathbf{y})+h_2^*(\mathbf{y}).\end{aligned}$

注意卷积到和这一方向所需的条件非常弱——只需要所涉及的函数是正常的即可. 但反过来就没那么直接了, 我们需要加一些额外的假设条件(比如函数的凸性).

定理10 (和的共轭) 设 $h_1:\mathbb{E}\to(-\infty,\infty]$ 为一正常凸函数, $h_2:\mathbb{E}\to\mathbb{R}$ 为一实值凸函数. 则 $(h_1+h_2)^*=h_1^*\square h_2^*.$
证明: 对 $\forall\mathbf{y}\in\mathbb{E}^*$ , $\begin{aligned}(h_1+h_2)^*(\mathbf{y})&=\max_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{y,x}\rangle-h_1(\mathbf{x})-h_2(\mathbf{x})\}\\&=-\min_{\mathbf{x}\in\mathbb{E}}\{h_1(\mathbf{x})+h_2(\mathbf{x})-\langle\mathbf{y,x}\rangle\}\\&=-\min_{\mathbf{x}\in\mathbb{E}}\{h_1(\mathbf{x})+g(\mathbf{x})\},\end{aligned}$ 这里 $g(\mathbf{x})\equiv h_2(\mathbf{x})-\langle\mathbf{y,x}\rangle$ . 注意到 $\mathrm{ri(dom}(h_1))\cap\mathrm{ri(dom}(g))=\mathrm{ri(dom}(h_1))\cap\mathbb{E}=\mathrm{ri(dom}(h_1))\ne\emptyset,$ 于是由Fenchel对偶定理就有 $\min_{\mathbf{x}\in\mathbb{E}}\{h_1(\mathbf{x})+g(\mathbf{x})\}=\max_{\mathbf{z}\in\mathbb{E}^*}\{-h_1^*(\mathbf{z})-g^*(-\mathbf{z})\}=\max_{\mathbf{z}\in\mathbb{E}^*}\{-h_1^*(\mathbf{z})-h_2^*(\mathbf{y-z})\}.$ 这里最后一个等号来自于共轭函数的定义. 联立之前的等式, 就有对 $\forall\mathbf{y}\in\mathbb{E}^*$ , $(h_1+h_2)^*(\mathbf{y})=\min_{\mathbf{z}\in\mathbb{E}^*}\{h_1^*(\mathbf{z})+h_2^*(\mathbf{y-z})\}=(h_1^*\square h_2^*)(\mathbf{y}).$
推论1 设 $h_1:\mathbb{E}\to(-\infty,\infty]$ 为一正常闭凸函数, $h_2:\mathbb{E}\to\mathbb{R}$ 为一实值凸函数. 则 $h_1+h_2=(h_1^*\square h_2^*)^*.$
证明: 由 $h_1,h_2$ 的正常闭凸性, $h_1+h_2$ 也是正常闭凸的. 因此由定理4, $h_1+h_2)^{**}=h_1+h_2$ , 再由定理10, $h_1+h_2=(h_1+h_2)^{**}=[(h_1+h_2)^*]^*=(h_1^*\square h_2^*)^*.$
下面的定理11则告诉我们把推论1中的 $h_1,h_2$ 分别换成 $h_1^*,h_2^*$ 后结论是怎样的.

定理11 (用共轭表示的极小卷积) 设 $h_1:\mathbb{E}\to(-\infty,\infty]$ 为一正常凸函数, $h_2:\mathbb{E}\to\mathbb{R}$ 为一实值凸函数. 假设 $h_1\square h_2$ 是实值函数. 则 $h_1\square h_2=(h_1^*+h_2^*)^*.$
证明: 由定理9, $(h_1\square h_2)^*=h_1^*+h_2^*.$ 因 $h_1$ 正常凸, $h_2$ 实值凸, 根据第二章定理8, $h_1\square h_2$ 是凸函数. 又由条件 $h_1\square h_2$ 是实值的, 从而必定是正常的. 再由第二章定理3和定理9, 我们推出实值凸函数 $h_1\square h_2$ 是闭函数. 再次由本章定理4, $(h_1\square h_2)^{**}=h_1\square h_2$ . 从而 $h_1\square h_2=(h_1\square h_2)^{**}=[(h_1\square h_2)^*]^*=(h_1^*+h_2^*)^*.$

6. 共轭函数的次微分

定理12 (共轭次梯度定理) 设 $f:\mathbb{E}\to(-\infty,\infty]$ 是正常凸函数. 对 $\forall\mathbf{x}\in\mathbb{E},\,\mathbf{y}\in\mathbb{E}^*$ , 下面两件事等价:
(i) $\langle\mathbf{x,y}\rangle=f(\mathbf{x})+f^*(\mathbf{y}).$
(ii) $\mathbf{y}\in\partial f(\mathbf{x}).$
若还有 $f$ 是闭函数, 则(i),(ii)与下面的(iii)也是等价的:
(iii) $\mathbf{x}\in\partial f^*(\mathbf{y}).$

证明: $\mathbf{y}\in\partial f(\mathbf{x})$ 当且仅当 $f(\mathbf{z})\ge f(\mathbf{x})+\langle\mathbf{y,z-x}\rangle,\quad\forall\mathbf{z}\in\mathbb{E},$ 这等同于 $\langle\mathbf{y,x}\rangle-f(\mathbf{x})\ge\langle\mathbf{y,z}\rangle-f(\mathbf{z}),\quad\forall\mathbf{z}\in\mathbb{E}.$ 对 $\mathbf{z}$ 取极大, 于是上式又等价于 $\langle\mathbf{y,x}\rangle-f(\mathbf{x})\ge f^*(\mathbf{y}),$ 而由Fenchel不等式, 这又等价于 $\langle\mathbf{x,y}\rangle=f(\mathbf{x})+f^*(\mathbf{y})$ . 这样, 我们就证明了(i)和(ii)的等价性. 现假设 $f$ 是闭函数, 则由定理4, $f^{**}=f$ . 这样一来, (i)就等价于 $\langle\mathbf{x,y}\rangle=g(\mathbf{y})+g^*(\mathbf{x}),$ 这里 $g=f^*$ . 类似地, (i)就等价于 $\mathbf{x}\in\partial g(\mathbf{y})=\partial f^*(\mathbf{y})$ . 证毕.

根据共轭函数的定义, 定理12的(i)可以写成 $\mathbf{x}\in\arg\max_{\tilde\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{y,\tilde x}\rangle-f(\tilde\mathbf{x})\},$ 而当 $f$ 是闭函数时, 也可写成 $\mathbf{y}\in\arg\max_{\tilde\mathbf{y}\in\mathbb{E}^*}\{\langle\mathbf{x,\tilde y}\rangle-f^*(\tilde\mathbf{y})\}.$ 于此, 共轭次梯度定理就可以等价地表述为如下形式.

推论2 (共轭次梯度定理——第二形式) 设 $f:\mathbb{E}\to(-\infty,\infty]$ 为一正常闭凸函数. 于是对 $\forall\mathbf{x}\in\mathbb{E},\,\mathbf{y}\in\mathbb{E}^*$ , $\begin{aligned}\partial f(\mathbf{x})&=\arg\max_{\tilde\mathbf{y}\in\mathbb{E}^*}\{\langle\mathbf{x,\tilde y}\rangle-f^*(\tilde\mathbf{y})\},\\\partial f^*(\mathbf{y})&=\arg\max_{\tilde\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{y,\tilde x}\rangle-f(\tilde\mathbf{x})\}.\end{aligned}$
特别地, 对于任一正常闭凸函数 $f$ , $\begin{aligned}\partial f(\mathbf{0})&=\arg\min_{\mathbf{y}\in\mathbb{E}^*}f^*(\mathbf{y}),\\\partial f^*(\mathbf{0})&=\arg\min_{\mathbf{x}\in\mathbb{E}}f(\mathbf{x}).\end{aligned}$

例6 设 $f:\mathbb{E}\to\mathbb{E}$ 定义为 $f(\mathbf{x})=\Vert\mathbf{x}\Vert$ . 由第二章例12, $f=\sigma_{B_{\Vert\cdot\Vert_*}[\mathbf{0},1]}$ . 再由例3, $f^*=\delta_{B_{\Vert\cdot\Vert_*}[\mathbf{0},1]}$ . 根据共轭次梯度定理, $\partial f(\mathbf{0})=\arg\min_{\mathbf{y}\in\mathbb{E}^*}f^*(\mathbf{y})=\arg\min_{\mathbf{y}\in\mathbb{E}^*}\delta_{B_{\Vert\cdot\Vert_*}[\mathbf{0},1]}=B_{\Vert\cdot\Vert_*}[\mathbf{0},1].$ 这与第三章例1的结论是吻合的.

在第三章的定理23中, 我们讨论了函数的Lipschitz连续性与其在一给定集合上次梯度的一致有界性的关系. 这里我们将说明: 函数在全空间上的Lipschitz连续性等价于其共轭函数有效域的有界性.

定理13 (Lipschitz连续性与共轭函数有效域的有界性) 设 $f:\mathbb{E}\to\mathbb{R}$ 是凸函数. 于是存在常数 $L > 0$ , 使得下面三件事等价:
(i) $|f(\mathbf{x})-f(\mathbf{y})|\le L\Vert\mathbf{x-y}\Vert,\,\forall\mathbf{x,y}\in\mathbb{E}$ .
(ii) $\Vert\mathbf{g}\Vert_*\le L,\,\forall\mathbf{g}\in\partial f(\mathbf{x}),\,\mathbf{x}\in\mathbb{E}$ .
(iii) $\mathrm{dom}(f^*)\subset B_{\Vert\cdot\Vert_*}[\mathbf{0},L]$ .

证明: (i)和(ii)的等价性可直接从第三章的定理23得到. 现假设(iii)成立. 注意 $f$ 是定义在全空间上的实值凸函数, 从而使闭函数. 由共轭次梯度定理, 对 $\forall\mathbf{x}\in\mathbb{E}$ , $\partial f(\mathbf{x})=\arg\max_{\mathbf{y}\in\mathbb{E}^*}\{\langle\mathbf{x,y}\rangle-f^*(\mathbf{y})\},$ 因此 $\partial f(\mathbf{x})\subset\mathrm{dom}(f^*)$ , 从而(ii)成立. 我们再证明(i)可推(iii). 假设(i)成立. 于是特别有 $f(\mathbf{x})-f(\mathbf{0})\le|f(\mathbf{x})-f(\mathbf{0})|\le L\Vert\mathbf{x}\Vert,$ 因此 $-f(\mathbf{x})\ge-f(\mathbf{0})-L\Vert\mathbf{x}\Vert.$ 于是对 $\forall\mathbf{y}\in\mathbb{E}^*$ , $f^*(\mathbf{y})=\max_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{x,y}\rangle-f(\mathbf{x})\}\ge\max_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{x,y}\rangle-f(\mathbf{0})-L\Vert\mathbf{x}\Vert\}.$ 现取 $\tilde\mathbf{y}\in\mathbb{E}^*:\Vert\tilde\mathbf{y}\Vert_*>L$ . 我们要证明 $\tilde\mathbf{y}\notin\mathrm{dom}(f^*)$ . 令 $\mathbf{y}^{\dagger}\in\mathbb{E}:\Vert\mathbf{y}^{\dagger}\Vert=1,\,\langle\tilde\mathbf{y},\mathbf{y}^{\dagger}\rangle=\Vert\tilde\mathbf{y}\Vert_*$ . 令 $C=\{\alpha\mathbf{y}^{\dagger}:\alpha\ge0\}\subset\mathbb{E}$ . 于是 $\begin{aligned}f^*(\tilde\mathbf{y})&\ge\max_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{x,\tilde y}\rangle-f(\mathbf{0})-L\Vert\mathbf{x}\Vert\}\\&\ge\max_{\mathbf{x}\in C}\{\langle\mathbf{x,\tilde y}\rangle-f(\mathbf{0})-L\Vert\mathbf{x}\Vert\}\\&=\max_{\alpha\ge0}\{\langle\alpha\tilde\mathbf{y},\mathbf{y}^{\dagger}\rangle-f(\mathbf{0})-L\alpha\Vert\mathbf{y}^{\dagger}\Vert\}\\&=\max_{\alpha\ge0}\{\alpha\Vert\tilde\mathbf{y}\Vert_*-f(\mathbf{0})-L\alpha\}\\&=\max_{\alpha\ge0}\{\alpha(\Vert\tilde\mathbf{y}\Vert_*-L)-f(\mathbf{0})\}\\&\overset{\Vert\tilde\mathbf{y}\Vert_*>L}{=}\infty,\end{aligned}$ 因此 $\tilde\mathbf{y}\notin\mathrm{dom}(f^*)$ . 证毕.

这里的 $\alpha$ 不再能简单提到运算符的外面. ↩︎
从这个例子我们知道, 当 $0 < p < 1$ 时, Young不等式的符号要反过来. ↩︎
这里无需担心取不同的解会导致不同结果的问题, 这由凹函数的性质所保证. 事实上也可直接验证, 这需要用到 $\mathbf{y-b}\in\mathrm{Range}(\mathbf{A})$ 的前提. ↩︎
可参考Moore-Penrose伪逆. ↩︎
证明可见R.Tyrrell Rockafellar的专著《Convex Analysis》的第327页定理31.1. ↩︎