First Order Methods in Optimization Ch4. Conjugate Functions

第四章: 共轭函数

1. 定义与基本性质

定义1 (共轭函数) 设 f : E → [ − ∞ , ∞ ] f:\mathbb{E}\to[-\infty,\infty] f:E[,]为一扩充实值函数. 函数 f ∗ : E ∗ → [ − ∞ , ∞ ] f^*:\mathbb{E}^*\to[-\infty,\infty] f:E[,]定义为 f ∗ ( y ) = max ⁡ x ∈ E { ⟨ y , x ⟩ − f ( x ) } , y ∈ E ∗ f^*(\mathbf{y})=\max\limits_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{y,x}\rangle-f(\mathbf{x})\},\quad y\in\mathbb{E}^* f(y)=xEmax{y,xf(x)},yE称作 f f f的共轭函数.

例1 (指示函数的共轭函数) 设 f = δ C f=\delta_C f=δC, 其中 C ⊂ E C\subset\mathbb{E} CE为一非空集合. 则对 ∀ y ∈ E ∗ \forall\mathbf{y}\in\mathbb{E}^* yE, f ∗ ( y ) = max ⁡ x ∈ E { ⟨ y , x ⟩ − δ C ( x ) } = max ⁡ x ∈ C ⟨ y , x ⟩ = σ C ( y ) . f^*(\mathbf{y})=\max\limits_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{y,x}\rangle-\delta_C(\mathbf{x})\}=\max\limits_{\mathbf{x}\in C}\langle\mathbf{y,x}\rangle=\sigma_C(\mathbf{y}). f(y)=xEmax{y,xδC(x)}=xCmaxy,x=σC(y).即, 指示函数的共轭函数为同一集合的支撑函数: δ C ∗ = σ C . \boxed{\delta_C^*=\sigma_C.} δC=σC.
共轭函数的两个基本性质分别是凸性和闭性, 而这与原函数的闭凸性是无关的.

定理1 (共轭函数的闭凸性) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一扩充实值函数. 则其共轭函数 f ∗ f^* f是闭凸函数.

证明: 注意到 f ∗ f^* f是若干线性函数的极大函数, 而线性函数显然是闭凸的. 由于极大运算保闭凸性 (见第二章定理2(iii)和定理6(iii)), 所以 f ∗ f^* f是闭凸函数.

例2 ( 1 2 ∥ ⋅ ∥ 2 + δ C \frac{1}{2}\Vert\cdot\Vert^2+\delta_C 212+δC的共轭函数) 假设 E \mathbb{E} E为欧式空间, C ⊂ E C\subset\mathbb{E} CE非空. 定义 f ( x ) = 1 2 ∥ x ∥ 2 + δ C ( x ) f(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2+\delta_C(\mathbf{x}) f(x)=21x2+δC(x). 由第二章例5可知 f ∗ ( y ) = 1 2 ∥ y ∥ 2 − 1 2 d C 2 ( y ) . \boxed{f^*(\mathbf{y})=\frac{1}{2}\Vert\mathbf{y}\Vert^2-\frac{1}{2}d_C^2(\mathbf{y}).} f(y)=21y221dC2(y).这里 f f f只有当 C C C是凸集时才是凸函数, 而 f ∗ f^* f的凸性则不受 C C C的影响 (这与第二章例5的分析也是一致的).

不论何时, 共轭函数必定是闭凸函数. 那它什么时候是正常函数呢? 这时我们需要对原函数 f f f加一些条件.

定理2 (共轭函数的正常性) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一正常凸函数. 则 f ∗ f^* f是正常函数.

证明: 由于 f f f是正常函数, 所以存在 x ^ ∈ E \hat{\mathbf{x}}\in\mathbb{E} x^E使得 f ( x ^ ) < ∞ f(\hat\mathbf{x})<\infty f(x^)<. 由共轭函数的定义, 对 ∀ y ∈ E ∗ \forall\mathbf{y}\in\mathbb{E}^* yE, f ∗ ( y ) ≥ ⟨ y , x ^ ⟩ − f ( x ^ ) > − ∞ . f^*(\mathbf{y})\ge\langle\mathbf{y,\hat x}\rangle-f(\hat\mathbf{x})>-\infty. f(y)y,x^f(x^)>.我们再来说明 ∃ g ∈ E ∗ \exists\mathbf{g}\in\mathbb{E}^* gE, 使得 f ∗ ( g ) < ∞ f^*(\mathbf{g})<\infty f(g)<. 由第三章推论2 (这里需要凸性), ∃ x ∈ d o m ( f ) \exists\mathbf{x}\in\mathrm{dom}(f) xdom(f)使得 ∂ f ( x ) ≠ ∅ \partial f(\mathbf{x})\ne\emptyset f(x)=. 取 g ∈ ∂ f ( x ) \mathbf{g}\in\partial f(\mathbf{x}) gf(x). 则由次梯度的定义, 对 ∀ z ∈ E \forall\mathbf{z}\in\mathbb{E} zE, f ( z ) ≥ f ( x ) + ⟨ g , z − x ⟩ . f(\mathbf{z})\ge f(\mathbf{x})+\langle\mathbf{g,z-x}\rangle. f(z)f(x)+g,zx.因此 f ∗ ( g ) = max ⁡ z ∈ E { ⟨ g , z ⟩ − f ( z ) } ≤ ⟨ g , x ⟩ − f ( x ) < ∞ . f^*(\mathbf{g})=\max\limits_{\mathbf{z}\in\mathbb{E}}\{\langle\mathbf{g,z}\rangle-f(\mathbf{z})\}\le\langle\mathbf{g,x}\rangle-f(\mathbf{x})<\infty. f(g)=zEmax{g,zf(z)}g,xf(x)<.

注1 定理2中我们在证明 f ∗ ( y ) > − ∞ f^*(\mathbf{y})>-\infty f(y)>时只用到了 f f f是正常函数. 这一点在下面定理3的证明中会用到.

共轭函数定义的一个直接推论是Fenchel不等式.

定理3 (Fenchel不等式) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一扩充实值正常函数. 则对 ∀ x ∈ E ,   y ∈ E ∗ \forall\mathbf{x}\in\mathbb{E},\,\mathbf{y}\in\mathbb{E}^* xE,yE, f ( x ) + f ∗ ( y ) ≥ ⟨ y , x ⟩ . f(\mathbf{x})+f^*(\mathbf{y})\ge\langle\mathbf{y,x}\rangle. f(x)+f(y)y,x.证明: 由共轭函数的定义, 对 ∀ x ∈ E ,   y ∈ E ∗ \forall\mathbf{x}\in\mathbb{E},\,\mathbf{y}\in\mathbb{E}^* xE,yE, f ∗ ( y ) ≥ ⟨ y , x ⟩ − f ( x ) . f^*(\mathbf{y})\ge\langle\mathbf{y,x}\rangle-f(\mathbf{x}). f(y)y,xf(x). f f f是正常函数, 所以 f ( x ) > − ∞ ,   f ∗ ( y ) > − ∞ f(\mathbf{x})>-\infty,\,f^*(\mathbf{y})>-\infty f(x)>,f(y)>(注1). 若 f ( x ) < ∞ f(\mathbf{x})<\infty f(x)<, 则可移项得证; 若 f ( x ) = ∞ f(\mathbf{x})=\infty f(x)=, 则由 f ∗ ( y ) > − ∞ , ∀ y ∈ E ∗ f^*(\mathbf{y})>-\infty,\forall\mathbf{y}\in\mathbb{E}^* f(y)>,yE可直接得证.

注2 Fenchel不等式可看做是Young不等式的推广. 事实上, 考虑 f ( x ) = x p p ,   x ≥ 0 f(x)=\frac{x^p}{p},\,x\ge0 f(x)=pxp,x0, 其中 1 p + 1 q = 1 ,   1 < p , q < ∞ \frac{1}{p}+\frac{1}{q}=1,\,1<p,q<\infty p1+q1=1,1<p,q<. 易证 f ∗ ( y ) = x q q ,   y ≥ 0 f^*(y)=\frac{x^q}{q},\,y\ge0 f(y)=qxq,y0. 于是由Fenchel不等式, a b ≤ a p p + b q q , ∀ a , b ≥ 0. ab\le\frac{a^p}{p}+\frac{b^q}{q},\quad\forall a,b\ge0. abpap+qbq,a,b0.这就是Young不等式.

2. 双共轭

当我们对某一函数做了两次共轭运算时, 就等价于对原来的函数做了一次双共轭运算. 数学上, 对 f : E → [ − ∞ , ∞ ] f:\mathbb{E}\to[-\infty,\infty] f:E[,]我们定义 f ∗ ∗ ( x ) = max ⁡ y ∈ E ∗ { ⟨ x , y ⟩ − f ∗ ( y ) } , x ∈ E . f^{**}(\mathbf{x})=\max\limits_{\mathbf{y}\in\mathbb{E}^*}\{\langle\mathbf{x,y}\rangle-f^*(\mathbf{y})\},\quad\mathbf{x}\in\mathbb{E}. f(x)=yEmax{x,yf(y)},xE.这里我们用到了之前的假设: E \mathbb{E} E E ∗ \mathbb{E}^* E在元素上是一一对应的. 下面我们说明, 双共轭函数总是原函数的一个下界.

引理1 ( f ∗ ∗ ≤ f f^{**}\le f ff) 设 f : E → [ − ∞ , ∞ ] f:\mathbb{E}\to[-\infty,\infty] f:E[,]为一扩充实值函数. 于是 f ( x ) ≥ f ∗ ∗ ( x ) , ∀ x ∈ E f(\mathbf{x})\ge f^{**}(\mathbf{x}),\forall\mathbf{x}\in\mathbb{E} f(x)f(x),xE.

证明: 由共轭函数的定义, 对 ∀ x ∈ E ,   y ∈ E ∗ \forall\mathbf{x}\in\mathbb{E},\,\mathbf{y}\in\mathbb{E}^* xE,yE, f ∗ ( y ) ≥ ⟨ y , x ⟩ − f ( x ) . f^*(\mathbf{y})\ge\langle\mathbf{y,x}\rangle-f(\mathbf{x}). f(y)y,xf(x).于是 f ( x ) ≥ ⟨ y , x ⟩ − f ∗ ( y ) , f(\mathbf{x})\ge\langle\mathbf{y,x}\rangle-f^*(\mathbf{y}), f(x)y,xf(y),在右端对 y \mathbf{y} y取上确界即得 f ( x ) ≥ max ⁡ y ∈ E ∗ { ⟨ y , x ⟩ − f ∗ ( y ) } = f ∗ ∗ ( x ) . f(\mathbf{x})\ge\max\limits_{\mathbf{y}\in\mathbb{E}^*}\{\langle\mathbf{y,x}\rangle-f^*(\mathbf{y})\}=f^{**}(\mathbf{x}). f(x)yEmax{y,xf(y)}=f(x).
若我们还假设 f f f是正常闭凸函数, 则其双共轭就等于 f f f自身.

定理4 ( f = f ∗ ∗ f=f^{**} f=f) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一正常闭凸函数. 于是 f ∗ ∗ = f f^{**}=f f=f.

证明: 由引理1, 我们只需证明 f ∗ ∗ ≥ f f^{**}\ge f ff. 我们用反证法证明, 假设 ∃ x ∈ E \exists\mathbf{x}\in\mathbb{E} xE, 使得 f ∗ ∗ ( x ) ≤ f ( x ) f^{**}(\mathbf{x})\le f(\mathbf{x}) f(x)f(x). 这等价于 ( x , f ∗ ∗ ( x ) ) ∉ e p i ( f ) ⊂ E × R (\mathbf{x},f^{**}(\mathbf{x}))\notin\mathrm{epi}(f)\subset\mathbb{E}\times\mathbb{R} (x,f(x))/epi(f)E×R. 同前面一样, 我们假定乘积空间 V = E × R \mathbb{V}=\mathbb{E}\times\mathbb{R} V=E×R中的内积定义为 ⟨ ( u , s ) , ( v , t ) ⟩ V = ⟨ u , v ⟩ + s t \langle(\mathbf{u},s),(\mathbf{v},t)\rangle_{\mathbb{V}}=\langle\mathbf{u,v}\rangle+st (u,s),(v,t)V=u,v+st, 这里 ⟨ ⋅ , ⋅ ⟩ \langle\cdot,\cdot\rangle , E \mathbb{E} E中的内积. 因 f f f是正常闭凸函数, 所以 e p i ( f ) \mathrm{epi}(f) epi(f)非空闭凸, 于是由第二章定理11严格分离定理知, ∃ a ∈ E ∗ , b , c 1 , c 2 ∈ R \exists\mathbf{a}\in\mathbb{E}^*,b,c_1,c_2\in\mathbb{R} aE,b,c1,c2R使得 ⟨ a , z ⟩ + b s ≤ c 1 < c 2 ≤ ⟨ a , x ⟩ + b f ∗ ∗ ( x ) , ∀ ( z , s ) ∈ e p i ( f ) . \langle\mathbf{a,z}\rangle+bs\le c_1<c_2\le\langle\mathbf{a,x}\rangle+bf^{**}(\mathbf{x}),\quad\forall(\mathbf{z},s)\in\mathrm{epi}(f). a,z+bsc1<c2a,x+bf(x),(z,s)epi(f).移项可得 ⟨ a , z − x ⟩ + b ( s − f ∗ ∗ ( x ) ) ≤ c 1 − c 2 ≡ c < 0 , ∀ ( z , s ) ∈ e p i ( f ) . \langle\mathbf{a,z-x}\rangle+b(s-f^{**}(\mathbf{x}))\le c_1-c_2\equiv c<0,\quad\forall(\mathbf{z},s)\in\mathrm{epi}(f). a,zx+b(sf(x))c1c2c<0,(z,s)epi(f).我们断言 b ≤ 0 b\le0 b0. 若不然, 固定 z \mathbf{z} z, 令 s s s趋于 ∞ \infty 就与上面的不等式矛盾. 于是就有下面两种情形:

  • b < 0 b<0 b<0, 则在不等式两边同除 − b -b b并记 y = − a b \mathbf{y}=-\frac{\mathbf{a}}{b} y=ba, 我们有 ⟨ y , z − x ⟩ − s + f ∗ ∗ ( x ) ≤ c − b < 0 , ∀ ( z , s ) ∈ e p i ( f ) . \langle\mathbf{y,z-x}\rangle-s+f^{**}(\mathbf{x})\le\frac{c}{-b}<0,\quad\forall(\mathbf{z},s)\in\mathrm{epi}(f). y,zxs+f(x)bc<0,(z,s)epi(f).特别地, 取 s = f ( z ) s=f(\mathbf{z}) s=f(z) (这是因为 ( z , f ( z ) ) ∈ e p i ( f ) (\mathbf{z},f(\mathbf{z}))\in\mathrm{epi}(f) (z,f(z))epi(f)), 我们有 ⟨ y , z ⟩ − f ( z ) − ⟨ y , x ⟩ + f ∗ ∗ ( x ) ≤ c − b < 0 , ∀ z ∈ d o m ( f ) . \langle\mathbf{y,z}\rangle-f(\mathbf{z})-\langle\mathbf{y,x}\rangle+f^{**}(\mathbf{x})\le\frac{c}{-b}<0,\quad\forall\mathbf{z}\in\mathrm{dom}(f). y,zf(z)y,x+f(x)bc<0,zdom(f).不等式左端对 z \mathbf{z} z取上确界即得 f ∗ ( y ) − ⟨ y , x ⟩ + f ∗ ∗ ( x ) ≤ c − b < 0 , f^*(\mathbf{y})-\langle\mathbf{y,x}\rangle+f^{**}(\mathbf{x})\le\frac{c}{-b}<0, f(y)y,x+f(x)bc<0,而这与Fenchel不等式矛盾.
  • b = 0 b=0 b=0. 因 f f f是正常凸函数, 根据定理2, f ∗ f^* f是正常函数, 所以可取 y ^ ∈ d o m ( f ∗ ) \hat\mathbf{y}\in\mathrm{dom}(f^*) y^dom(f). 任取 ϵ > 0 \epsilon>0 ϵ>0, 定义 a ^ = a + ϵ y ^ ,   b ^ = − ϵ \hat\mathbf{a}=\mathbf{a}+\epsilon\hat\mathbf{y},\,\hat b=-\epsilon a^=a+ϵy^,b^=ϵ. 于是对 ∀ z ∈ d o m ( f ) \forall\mathbf{z}\in\mathrm{dom}(f) zdom(f), ⟨ a ^ , z − x ⟩ + b ^ ( f ( z ) − f ∗ ∗ ( x ) ) = ⟨ a , z − x ⟩ + ϵ [ ⟨ y ^ , z ⟩ − f ( z ) + f ∗ ∗ ( x ) − ⟨ y ^ , x ⟩ ] ≤ c + ϵ [ ⟨ y ^ , z ⟩ − f ( z ) + f ∗ ∗ ( x ) − ⟨ y ^ , x ⟩ ] ≤ c + ϵ [ f ∗ ( y ^ ) − ⟨ y ^ , x ⟩ + f ∗ ∗ ( x ) ] ≜ c ^ . \begin{aligned}\langle\hat\mathbf{a},\mathbf{z-x}\rangle+\hat b(f(\mathbf{z})-f^{**}(\mathbf{x}))&=\langle\mathbf{a,z-x}\rangle+\epsilon\left[\langle\hat\mathbf{y},\mathbf{z}\rangle-f(\mathbf{z})+f^{**}(\mathbf{x})-\langle\hat\mathbf{y},\mathbf{x}\rangle\right]\\&\le c+\epsilon\left[\langle\hat\mathbf{y},\mathbf{z}\rangle-f(\mathbf{z})+f^{**}(\mathbf{x})-\langle\hat\mathbf{y},\mathbf{x}\rangle\right]\\&\le c+\epsilon\left[f^*(\hat\mathbf{y})-\langle\hat\mathbf{y},\mathbf{x}\rangle+f^{**}(\mathbf{x})\right]\triangleq\hat c.\end{aligned} a^,zx+b^(f(z)f(x))=a,zx+ϵ[y^,zf(z)+f(x)y^,x]c+ϵ[y^,zf(z)+f(x)y^,x]c+ϵ[f(y^)y^,x+f(x)]c^.由于 c < 0 c<0 c<0, 故可令 ϵ > 0 \epsilon>0 ϵ>0充分小以使得 c ^ < 0 \hat c<0 c^<0. 这时类似于 b < 0 b<0 b<0的情形, 在不等式两边同除 − b ^ -\hat b b^并记 y ~ = − 1 b ^ a ^ \tilde\mathbf{y}=-\frac{1}{\hat b}\hat\mathbf{a} y~=b^1a^, 就得到 ⟨ y ~ , z ⟩ − f ( z ) − ⟨ y ~ , x ⟩ + f ∗ ∗ ( x ) ≤ − c ^ b ^ < 0 , ∀ z ∈ d o m ( f ) . \langle\tilde\mathbf{y},\mathbf{z}\rangle-f(\mathbf{z})-\langle\tilde\mathbf{y},\mathbf{x}\rangle+f^{**}(\mathbf{x})\le-\frac{\hat c}{\hat b}<0,\quad\forall\mathbf{z}\in\mathrm{dom}(f). y~,zf(z)y~,x+f(x)b^c^<0,zdom(f).在不等式左端对 z \mathbf{z} z取上确界可得 f ∗ ( y ~ ) − ⟨ y ~ , x ⟩ + f ∗ ∗ ( x ) ≤ c ^ − b ^ < − 0 , f^*(\tilde\mathbf{y})-\langle\tilde\mathbf{y},\mathbf{x}\rangle+f^{**}(\mathbf{x})\le\frac{\hat c}{-\hat b}<-0, f(y~)y~,x+f(x)b^c^<0,这又与Fenchel不等式矛盾.

定理4可以用来刻画一些函数的共轭函数.

例3 (支撑函数的共轭函数) 假设 C ⊂ E C\subset\mathbb{E} CE为一非空集合. 由于 c l ( c o n v ( C ) ) \mathrm{cl(conv}(C)) cl(conv(C))为闭凸集, 所以 δ c l ( c o n v ( C ) ) \delta_{\mathrm{cl(conv}(C))} δcl(conv(C))是闭凸函数, 于是由例1以及定理4, σ c l ( c o n v ( C ) ) ∗ = ( δ c l ( c o n v ( C ) ) ∗ ) ∗ = δ c l ( c o n v ( C ) ) ∗ ∗ = δ c l ( c o n v ( C ) ) . \sigma^*_{\mathrm{cl(conv}(C))}=\left(\delta^*_{\mathrm{cl(conv}(C))}\right)^*=\delta^{**}_{\mathrm{cl(conv}(C))}=\delta_{\mathrm{cl(conv}(C))}. σcl(conv(C))=(δcl(conv(C)))=δcl(conv(C))=δcl(conv(C)).最后根据第二章引理5, σ C = σ c l ( c o n v ( C ) ) . \sigma_C=\sigma_{\mathrm{cl(conv}(C))}. σC=σcl(conv(C)). σ C ∗ = δ c l ( c o n v ( C ) ) . \boxed{\sigma_C^*=\delta_{\mathrm{cl(conv}(C))}.} σC=δcl(conv(C)).这里需要指出, 若 c l ( c o n v ( C ) ) ≠ C \mathrm{cl(conv}(C))\ne C cl(conv(C))=C, 即 C C C不是闭凸集, δ C \delta_C δC不是闭凸函数. 此时根据例1与例3, δ C ∗ ∗ = σ C ∗ = δ c l ( c o n v ( C ) ) . \delta_C^{**}=\sigma_C^*=\delta_{\mathrm{cl(conv}(C))}. δC=σC=δcl(conv(C)).于是 δ c l ( c o n v ( C ) ) ≤ δ C . \delta_{\mathrm{cl(conv}(C))}\le\delta_C. δcl(conv(C))δC.特别地, 在 x ∈ c l ( c o n v ( C ) ) ∖ C \mathbf{x}\in \mathrm{cl(conv}(C))\setminus C xcl(conv(C))C处, 有 δ c l ( c o n v ( C ) ) < δ C . \delta_{\mathrm{cl(conv}(C))}<\delta_C. δcl(conv(C))<δC.这个例子表明, 定理4的条件有时会成为 f = f ∗ ∗ f=f^{**} f=f的必要条件.

例4 (极大函数的共轭函数) 考虑函数 f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR定义为 f ( x ) = max ⁡ { x 1 , x 2 , … , x n } f(\mathbf{x})=\max\{x_1,x_2,\ldots,x_n\} f(x)=max{x1,x2,,xn}. 注意到 max ⁡ { x 1 , x 2 , … , x n } = max ⁡ y ∈ Δ n y T x = σ Δ n ( x ) . \max\{x_1,x_2,\ldots,x_n\}=\max\limits_{\mathbf{y}\in\Delta_n}\mathbf{y}^T\mathbf{x}=\sigma_{\Delta_n}(\mathbf{x}). max{x1,x2,,xn}=yΔnmaxyTx=σΔn(x).于是根据例3以及 Δ n \Delta_n Δn的闭凸性, f ∗ = δ Δ n . \boxed{f^{*}=\delta_{\Delta_n}.} f=δΔn.

例5 ( 1 2 ( ∥ ⋅ ∥ 2 − d C 2 ( ⋅ ) ) \frac{1}{2}\left(\Vert\cdot\Vert^2-d_C^2(\cdot)\right) 21(2dC2())的共轭函数) 设 E \mathbb{E} E为欧式空间, C ⊂ E C\subset\mathbb{E} CE为一非空闭凸集. 定义 f ( x ) = 1 2 ∥ x ∥ 2 − 1 2 d C 2 ( x ) f(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2-\frac{1}{2}d_C^2(\mathbf{x}) f(x)=21x221dC2(x). 由例2, f = g ∗ f=g^* f=g, 其中 g ( y ) = 1 2 ∥ y ∥ 2 + δ C ( y ) g(\mathbf{y})=\frac{1}{2}\Vert\mathbf{y}\Vert^2+\delta_C(\mathbf{y}) g(y)=21y2+δC(y). 由于 C C C非空闭凸, 所以 g g g正常闭凸. 再根据定理4, f ∗ ( y ) = g ∗ ∗ ( y ) = g ( y ) = 1 2 ∥ y ∥ 2 + δ C ( y ) . \boxed{f^*(\mathbf{y})=g^{**}(\mathbf{y})=g(\mathbf{y})=\frac{1}{2}\Vert\mathbf{y}\Vert^2+\delta_C(\mathbf{y}).} f(y)=g(y)=g(y)=21y2+δC(y).

3. 共轭函数的运算法则

本节我们针对可分复合可逆线性变换以及数乘三种情形讨论共轭函数的运算法则. 它们的证明都是直接的.

定理5 (可分函数的共轭函数) 设 g : E 1 × E 2 × E p → ( − ∞ , ∞ ] g:\mathbb{E}_1\times\mathbb{E}_2\times\mathbb{E}_p\to(-\infty,\infty] g:E1×E2×Ep(,]定义为 g ( x 1 , x 2 , … , x p ) = ∑ i = 1 p f i ( x i ) g(\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_p)=\sum_{i=1}^pf_i(\mathbf{x}_i) g(x1,x2,,xp)=i=1pfi(xi), 其中 f i : E i → ( − ∞ , ∞ ] f_i:\mathbb{E}_i\to(-\infty,\infty] fi:Ei(,]为一正常函数, i = 1 , 2 , … , p i=1,2,\ldots,p i=1,2,,p. 则 g ∗ ( y 1 , y 2 , … , y p ) = ∑ i = 1 p f i ∗ ( y i ) , ∀ y i ∈ E i ∗ , i = 1 , 2 , … , p . g^*(\mathbf{y}_1,\mathbf{y}_2,\ldots,\mathbf{y}_p)=\sum_{i=1}^pf_i^*(\mathbf{y}_i),\quad\forall\mathbf{y}_i\in\mathbb{E}_i^*,\quad i=1,2,\ldots,p. g(y1,y2,,yp)=i=1pfi(yi),yiEi,i=1,2,,p.证明: 对 ∀ ( y 1 , y 2 , … , y p ) ∈ E 1 ∗ × E 2 ∗ × ⋯ × E p ∗ \forall(\mathbf{y}_1,\mathbf{y}_2,\ldots,\mathbf{y}_p)\in\mathbb{E}_1^*\times\mathbb{E}_2^*\times\cdots\times\mathbb{E}_p^* (y1,y2,,yp)E1×E2××Ep, 我们有 g ∗ ( y 1 , y 2 , … , y p ) = max ⁡ x 1 , x 2 , … , x p { ⟨ ( y 1 , y 2 , … , y p ) , ( x 1 , x 2 , … , x p ) ⟩ − g ( x 1 , x 2 , … , x p ) } = max ⁡ x 1 , x 2 , … , x p { ∑ i = 1 p ⟨ y i , x i ⟩ − ∑ i = 1 p f i ( x i ) } = ∑ i = 1 p max ⁡ x i { ⟨ y i , x i ⟩ − f i ( x i ) } = ∑ i = 1 p f i ∗ ( y i ) . \begin{aligned}g^*(\mathbf{y}_1,\mathbf{y}_2,\ldots,\mathbf{y}_p)&=\max\limits_{\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_p}\{\langle(\mathbf{y}_1,\mathbf{y}_2,\ldots,\mathbf{y}_p),(\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_p)\rangle-g(\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_p)\}\\&=\max\limits_{\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_p}\left\{\sum_{i=1}^p\langle\mathbf{y}_i,\mathbf{x}_i\rangle-\sum_{i=1}^pf_i(\mathbf{x}_i)\right\}\\&=\sum_{i=1}^p\max\limits_{\mathbf{x}_i}\{\langle\mathbf{y}_i,\mathbf{x}_i\rangle-f_i(\mathbf{x}_i)\}\\&=\sum_{i=1}^pf_i^*(\mathbf{y}_i).\end{aligned} g(y1,y2,,yp)=x1,x2,,xpmax{(y1,y2,,yp),(x1,x2,,xp)g(x1,x2,,xp)}=x1,x2,,xpmax{i=1pyi,xii=1pfi(xi)}=i=1pximax{yi,xifi(xi)}=i=1pfi(yi).

定理6 ( f ( A ( x − a ) ) + ⟨ b , x ⟩ + c f(\mathcal{A}(\mathbf{x-a}))+\langle\mathbf{b,x}\rangle+c f(A(xa))+b,x+c的共轭函数) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一扩充实值函数, A : V → E \mathcal{A}:\mathbb{V}\to\mathbb{E} A:VE为一可逆线性变换, a ∈ V ,   b ∈ V ∗ , c ∈ R \mathbf{a}\in\mathbb{V},\,\mathbf{b}\in\mathbb{V}^*, c\in\mathbb{R} aV,bV,cR. 于是函数 g ( x ) = f ( A ( x − a ) ) + ⟨ b , x ⟩ + c g(\mathbf{x})=f(\mathcal{A}(\mathbf{x-a}))+\langle\mathbf{b,x}\rangle+c g(x)=f(A(xa))+b,x+c的共轭函数为 g ∗ ( y ) = f ∗ ( ( A T ) − 1 ( y − b ) ) + ⟨ a , y ⟩ − c − ⟨ a , b ⟩ , ∀ y ∈ V ∗ . g^*(\mathbf{y})=f^*\left(\left(\mathbf{A}^T\right)^{-1}(\mathbf{y-b})\right)+\langle\mathbf{a,y}\rangle-c-\langle\mathbf{a,b}\rangle,\quad\forall\mathbf{y}\in\mathbb{V}^*. g(y)=f((AT)1(yb))+a,yca,b,yV.证明: 做变量替换 z = A ( x − a ) ⇔ x = A − 1 ( z ) + a \mathbf{z}=\mathcal{A}(\mathbf{x-a})\Leftrightarrow\mathbf{x}=\mathcal{A}^{-1}(\mathbf{z})+\mathbf{a} z=A(xa)x=A1(z)+a, 于是对 ∀ y ∈ V ∗ \forall\mathbf{y}\in\mathbb{V}^* yV, g ∗ ( y ) = max ⁡ x { ⟨ y , x ⟩ − g ( x ) } = max ⁡ x { ⟨ y , x ⟩ − f ( A ( x − a ) ) − ⟨ b , x ⟩ − c } = max ⁡ z { ⟨ y , A − 1 ( z ) + a ⟩ − f ( z ) − ⟨ b , A − 1 ( z ) + a ⟩ − c }   ( x 与 z 是 一 一 对 应 的 ) = max ⁡ z { ⟨ y − b , A − 1 ( z ) ⟩ − f ( z ) + ⟨ a , y ⟩ − ⟨ a , b ⟩ − c } = max ⁡ z { ⟨ ( A − 1 ) T ( y − b ) , z ⟩ − f ( z ) + ⟨ a , y ⟩ − ⟨ a , b ⟩ − c } = f ∗ ( ( A T ) − 1 ( y − b ) ) + ⟨ a , y ⟩ − c − ⟨ a , b ⟩ . \begin{aligned}g^*(\mathbf{y})&=\max\limits_{\mathbf{x}}\{\langle\mathbf{y,x}\rangle-g(\mathbf{x})\}\\&=\max\limits_{\mathbf{x}}\{\langle\mathbf{y,x}\rangle-f(\mathcal{A}(\mathbf{x-a}))-\langle\mathbf{b,x}\rangle-c\}\\&=\max\limits_{\mathbf{z}}\left\{\left\langle\mathbf{y},\mathcal{A}^{-1}(\mathbf{z})+\mathbf{a}\right\rangle-f(\mathbf{z})-\left\langle\mathbf{b},\mathcal{A}^{-1}(\mathbf{z})+\mathbf{a}\right\rangle-c\right\}\:(\mathbf{x}与\mathbf{z}是一一对应的)\\&=\max\limits_{\mathbf{z}}\left\{\left\langle\mathbf{y-b},\mathcal{A}^{-1}(\mathbf{z})\right\rangle-f(\mathbf{z})+\langle\mathbf{a,y}\rangle-\langle\mathbf{a,b}\rangle-c\right\}\\&=\max\limits_{\mathbf{z}}\left\{\left\langle\left(\mathcal{A}^{-1}\right)^T(\mathbf{y-b}),\mathbf{z}\right\rangle-f(\mathbf{z})+\langle\mathbf{a,y}\rangle-\langle\mathbf{a,b}\rangle-c\right\}\\&=f^*\left(\left(\mathbf{A}^T\right)^{-1}(\mathbf{y-b})\right)+\langle\mathbf{a,y}\rangle-c-\langle\mathbf{a,b}\rangle.\end{aligned} g(y)=xmax{y,xg(x)}=xmax{y,xf(A(xa))b,xc}=zmax{y,A1(z)+af(z)b,A1(z)+ac}(xz)=zmax{yb,A1(z)f(z)+a,ya,bc}=zmax{(A1)T(yb),zf(z)+a,ya,bc}=f((AT)1(yb))+a,yca,b.

定理7 ( α f ( ⋅ ) \alpha f(\cdot) αf() α f ( ⋅ / α ) \alpha f(\cdot/\alpha) αf(/α)的共轭函数) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一扩充实值函数, α ∈ R + + \alpha\in\mathbb{R}_{++} αR++.
(i) g ( x ) = α f ( x ) g(\mathbf{x})=\alpha f(\mathbf{x}) g(x)=αf(x)的共轭函数为1 g ∗ ( y ) = α f ∗ ( y α ) , y ∈ E ∗ . g^*(\mathbf{y})=\alpha f^*\left(\frac{\mathbf{y}}{\alpha}\right),\quad\mathbf{y}\in\mathbb{E}^*. g(y)=αf(αy),yE.(ii) h ( x ) = α f ( x α ) h(\mathbf{x})=\alpha f\left(\frac{\mathbf{x}}{\alpha}\right) h(x)=αf(αx)的共轭函数为 h ∗ ( y ) = α f ∗ ( y ) , y ∈ E ∗ . h^*(\mathbf{y})=\alpha f^*(\mathbf{y}),\quad\mathbf{y}\in\mathbb{E}^*. h(y)=αf(y),yE.证明: (i) 对 ∀ y ∈ E ∗ \forall\mathbf{y}\in\mathbb{E}^* yE, g ∗ ( y ) = max ⁡ x { ⟨ y , x ⟩ − g ( x ) } = max ⁡ x { ⟨ y , x ⟩ − α f ( x ) } = α max ⁡ x { ⟨ y α , x ⟩ − f ( x ) } = α f ∗ ( y α ) . \begin{aligned}g^*(\mathbf{y})&=\max\limits_{\mathbf{x}}\{\langle\mathbf{y,x}\rangle-g(\mathbf{x})\}\\&=\max\limits_{\mathbf{x}}\{\langle\mathbf{y,x}\rangle-\alpha f(\mathbf{x})\}\\&=\alpha\max\limits_{\mathbf{x}}\left\{\left\langle\frac{\mathbf{y}}{\alpha},\mathbf{x}\right\rangle-f(\mathbf{x})\right\}\\&=\alpha f^*\left(\frac{\mathbf{y}}{\alpha}\right).\end{aligned} g(y)=xmax{y,xg(x)}=xmax{y,xαf(x)}=αxmax{αy,xf(x)}=αf(αy).(ii) 对 ∀ y ∈ E ∗ \forall\mathbf{y}\in\mathbb{E}^* yE, h ∗ ( y ) = max ⁡ x { y , x ⟩ − h ( x ) } = max ⁡ x { ⟨ y , x ⟩ − α f ( x α ) } = α max ⁡ α { ⟨ y , x α ⟩ − f ( x α ) } = z ← x α α max ⁡ x { ⟨ y , z ⟩ − f ( z ) } = α f ∗ ( y ) . \begin{aligned}h^*(\mathbf{y})&=\max\limits_{\mathbf{x}}\{\mathbf{y,x}\rangle-h(\mathbf{x})\}\\&=\max\limits_{\mathbf{x}}\left\{\langle\mathbf{y,x}\rangle-\alpha f\left(\frac{\mathbf{x}}{\alpha}\right)\right\}\\&=\alpha\max\limits_{\alpha}\left\{\left\langle\mathbf{y},\frac{\mathbf{x}}{\alpha}\right\rangle-f\left(\frac{\mathbf{x}}{\alpha}\right)\right\}\\&\overset{\mathbf{z}\leftarrow\frac{\mathbf{x}}{\alpha}}{=}\alpha\max\limits_{\mathbf{x}}\{\langle\mathbf{y,z}\rangle-f(\mathbf{z})\}\\&=\alpha f^*(\mathbf{y}).\end{aligned} h(y)=xmax{y,xh(x)}=xmax{y,xαf(αx)}=ααmax{y,αxf(αx)}=zαxαxmax{y,zf(z)}=αf(y).

由定理7可知, ( α f ) ∗ ∗ = α f ∗ ∗ (\alpha f)^{**}=\alpha f^{**} (αf)=αf.

我们将本小节推导的运算法则总结如下:

g ( x ) g(\mathbf{x}) g(x) g ∗ ( y ) g^*(\mathbf{y}) g(y)定理
∑ i = 1 m f i ( x i ) \sum_{i=1}^mf_i(\mathbf{x}_i) i=1mfi(xi) ∑ i = 1 m f i ∗ ( y i ) \sum_{i=1}^mf_i^*(\mathbf{y}_i) i=1mfi(yi)5
α f ( x )   ( α > 0 ) \alpha f(\mathbf{x})\:(\alpha>0) αf(x)(α>0) α f ∗ ( y / α ) \alpha f^*(\mathbf{y}/\alpha) αf(y/α)7
α f ( x / α )   ( α > 0 ) \alpha f(\mathbf{x}/\alpha)\:(\alpha>0) αf(x/α)(α>0) α f ∗ ( y ) \alpha f^*(\mathbf{y}) αf(y)7
f ( A ( x − a ) ) + ⟨ b , x ⟩ + c f(\mathcal{A}(\mathbf{x-a}))+\langle\mathbf{b,x}\rangle+c f(A(xa))+b,x+c f ∗ ( ( A T ) − 1 ( y − b ) ) + ⟨ a , y − b ⟩ − c f^*\left(\left(\mathcal{A}^T\right)^{-1}(\mathbf{y-b})\right)+\langle\mathbf{a,y-b}\rangle-c f((AT)1(yb))+a,ybc6

4. 共轭函数的计算举例

本小节我们将给出具体计算一些凸函数的共轭函数的示例, 其中有一维的例子, 也不乏多维的例子. 特别地, 我们可以根据Fenchel不等式给出一系列有用的不等式; 并且由于共轭函数必定是凸函数, 我们可以得到一些关于函数凸性的结果.

4.1 指数函数

f : R → R f:\mathbb{R}\to\mathbb{R} f:RR定义为指数函数 f ( x ) = e x f(x)=e^x f(x)=ex. 于是对 ∀ y ∈ R \forall y\in\mathbb{R} yR, f ∗ ( y ) = max ⁡ x { x y − e x } . f^*(y)=\max_x\{xy-e^x\}. f(y)=xmax{xyex}.

  • y < 0 y<0 y<0时, f ∗ ( y ) = ∞ f^*(y)=\infty f(y)= (令 x → − ∞ x\to-\infty x);
  • y = 0 y=0 y=0时, f ∗ ( y ) = 0 f^*(y)=0 f(y)=0 (令 x → − ∞ x\to-\infty x);
  • y > 0 y>0 y>0时, 在 x = x ~ = log ⁡ y x=\tilde x=\log y x=x~=logy时取到最大, 为 f ∗ ( y ) = y log ⁡ y − y f^*(y)=y\log y-y f(y)=ylogyy.

由于 y log ⁡ y − y → 0 ,   ( y → ∞ ) y\log y-y\to0,\:(y\to\infty) ylogyy0,(y), 所以我们可以写成 f ∗ ( y ) = { y log ⁡ y − y , y ≥ 0 , ∞ , y < 0. \boxed{f^*(y)=\left\{\begin{array}{ll}y\log y-y, & y\ge0,\\\infty, & y<0.\end{array}\right.} f(y)={ylogyy,,y0,y<0.

4.2 负对数函数

f : R → ( − ∞ , ∞ ] f:\mathbb{R}\to(-\infty,\infty] f:R(,]定义为负对数函数 f ( x ) = { − log ⁡ ( x ) , x > 0 , ∞ , x ≤ 0. f(x)=\left\{\begin{array}{ll}-\log(x), & x>0,\\\infty, & x\le0.\end{array}\right. f(x)={log(x),,x>0,x0.则对 ∀ y ∈ R \forall y\in\mathbb{R} yR, f ∗ ( y ) = max ⁡ x { x y − f ( x ) } = max ⁡ x > 0 { x y + log ⁡ ( x ) } . f^*(y)=\max_x\{xy-f(x)\}=\max_{x>0}\{xy+\log(x)\}. f(y)=xmax{xyf(x)}=x>0max{xy+log(x)}.

  • y ≥ 0 y\ge0 y0时, f ∗ ( y ) = ∞ f^*(y)=\infty f(y)= (令 x → ∞ x\to\infty x);
  • y < 0 y<0 y<0时, 在 x = x ~ = − 1 y x=\tilde x=-\frac{1}{y} x=x~=y1处取到最大, 为 f ∗ ( y ) = − 1 − log ⁡ ( − y ) f^*(y)=-1-\log(-y) f(y)=1log(y).

f ∗ ( y ) = { − 1 − log ⁡ ( − y ) , y < 0 , ∞ , y ≥ 0. \boxed{f^*(y)=\left\{\begin{array}{ll}-1-\log(-y), & y <0,\\\infty, & y\ge0.\end{array}\right.} f(y)={1log(y),,y<0,y0.

4.3 Hinge损失函数

考虑一维Hinge损失函数 f : R → R f:\mathbb{R}\to\mathbb{R} f:RR f ( x ) = max ⁡ { 1 − x , 0 } . f(x)=\max\{1-x,0\}. f(x)=max{1x,0}.于是对 ∀ y ∈ R \forall y\in\mathbb{R} yR, f ∗ ( y ) = max ⁡ x [ x y − max ⁡ { 1 − x , 0 } ] = max ⁡ x min ⁡ { ( y + 1 ) x − 1 , x y } . f^*(y)=\max_x[xy-\max\{1-x,0\}]=\max_x\min\{(y+1)x-1,xy\}. f(y)=xmax[xymax{1x,0}]=xmaxmin{(y+1)x1,xy}.而内部的极小得到的是一个连续的折线函数, 其中在 x < 1 x<1 x<1时斜率为 1 + y 1+y 1+y, 在 x ≥ 1 x\ge1 x1时斜率为 y y y. 因此 f ∗ ( y ) < ∞ f^*(y)<\infty f(y)<当且仅当 − 1 ≤ y ≤ 0 -1\le y\le 0 1y0, 且此时 f ∗ ( y ) = y f^*(y)=y f(y)=y. f ∗ ( y ) = y + δ [ − 1 , 0 ] ( y ) , y ∈ R . \boxed{f^*(y)=y+\delta_{[-1,0]}(y),\quad y\in\mathbb{R}.} f(y)=y+δ[1,0](y),yR.

4.4 1 p ∣ ⋅ ∣ p ( p > 1 ) \frac{1}{p}|\cdot|^p(p>1) p1p(p>1)

f : R → R f:\mathbb{R}\to\mathbb{R} f:RR定义为 f ( x ) = 1 p ∣ x ∣ p f(x)=\frac{1}{p}|x|^p f(x)=p1xp, 其中 p > 1 p>1 p>1. 于是对 ∀ y ∈ R \forall y\in\mathbb{R} yR, f ∗ ( y ) = max ⁡ x { x y − 1 p ∣ x ∣ p } . f^*(y)=\max_x\left\{xy-\frac{1}{p}|x|^p\right\}. f(y)=xmax{xyp1xp}.由于内部是处处可微的凹函数, 因此最大取在导数为 0 0 0的点 x ~ \tilde x x~处, 即满足 y − s g n ( x ~ ) ∣ x ~ ∣ p − 1 = 0. y-\mathrm{sgn}(\tilde x)|\tilde x|^{p-1}=0. ysgn(x~)x~p1=0.因此 s g n ( y ) = s g n ( x ~ ) \mathrm{sgn}(y)=\mathrm{sgn}(\tilde x) sgn(y)=sgn(x~), 从而 ∣ y ∣ = ∣ x ~ ∣ p − 1 ⇒ x ~ = s g n ∣ y ∣ 1 p − 1 |y|=|\tilde x|^{p-1}\Rightarrow\tilde x=\mathrm{sgn}|y|^{\frac{1}{p-1}} y=x~p1x~=sgnyp11. 因此 f ∗ ( y ) = x ~ y − 1 p ∣ x ~ ∣ p = ∣ y ∣ p p − 1 − 1 p ∣ y ∣ p p − 1 = 1 q ∣ y ∣ q , f^*(y)=\tilde xy-\frac{1}{p}|\tilde x|^p=|y|^{\frac{p}{p-1}}-\frac{1}{p}|y|^{\frac{p}{p-1}}=\frac{1}{q}|y|^q, f(y)=x~yp1x~p=yp1pp1yp1p=q1yq,这里 q q q是满足 1 p + 1 q = 1 \frac{1}{p}+\frac{1}{q}=1 p1+q1=1的正数. 这与注2是统一的.

4.5 − ( ⋅ ) p p ( 0 < p < 1 ) -\frac{(\cdot)^p}{p}(0<p<1) p()p(0<p<1)

f : R → ( − ∞ , ∞ ] f:\mathbb{R}\to(-\infty,\infty] f:R(,]定义为 f ( x ) = { − x p p , x ≥ 0 , ∞ , x < 0. f(x)=\left\{\begin{array}{ll}-\frac{x^p}{p}, & x\ge0,\\\infty, & x<0.\end{array}\right. f(x)={pxp,,x0,x<0. ∀ y ∈ R \forall y\in\mathbb{R} yR, f ∗ ( y ) = max ⁡ x { x y − f ( x ) } = max ⁡ x ≥ 0 { g ( x ) ≡ x y + x p p } . f^*(y)=\max_x\{xy-f(x)\}=\max_{x\ge0}\left\{g(x)\equiv xy+\frac{x^p}{p}\right\}. f(y)=xmax{xyf(x)}=x0max{g(x)xy+pxp}.

  • y ≥ 0 y\ge0 y0, f ∗ ( y ) = ∞ f^*(y)=\infty f(y)= (令 x → ∞ x\to\infty x);
  • y < 0 y<0 y<0, 在 x = x ~ = ( − y ) 1 p − 1 > 0 x=\tilde x=(-y)^{\frac{1}{p-1}}>0 x=x~=(y)p11>0处取到最大值, 为 f ∗ ( y ) = x ~ y + x ~ p p = − ( − y ) p p − 1 + 1 p ( − y ) p p − 1 = − ( − y ) q q , f^*(y)=\tilde xy+\frac{\tilde x^p}{p}=-(-y)^{\frac{p}{p-1}}+\frac{1}{p}(-y)^{\frac{p}{p-1}}=-\frac{(-y)^q}{q}, f(y)=x~y+px~p=(y)p1p+p1(y)p1p=q(y)q,这里 q q q是满足 1 p + 1 q = 1 \frac{1}{p}+\frac{1}{q}=1 p1+q1=1的负数2.

f ∗ ( y ) = { − ( − y ) q q , y < 0 , ∞ , y ≥ 0. \boxed{f^*(y)=\left\{\begin{array}{ll}-\frac{(-y)^q}{q}, & y<0,\\\infty, & y\ge0.\end{array}\right.} f(y)={q(y)q,,y<0,y0.

4.6 严格凸二次函数

f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR定义为 f ( x ) = 1 2 x T A x + b T x + c f(\mathbf{x})=\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}+c f(x)=21xTAx+bTx+c, 其中 A ∈ S + + n ,   b ∈ R n ,   c ∈ R \mathbf{A}\in\mathbb{S}_{++}^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R} AS++n,bRn,cR. 假定 R n \mathbb{R}^n Rn中所赋的内积为点积, 于是对 ∀ y ∈ R n \forall\mathbf{y}\in\mathbb{R}^n yRn, f ∗ ( y ) = max ⁡ x { y T x − f ( x ) } = max ⁡ x { y T x − 1 2 x T A x − b T x − c } = max ⁡ x { − 1 2 x T A x − ( b − y ) T x − c } = 1 2 ( y − b ) T A − 1 ( y − b ) − c . \begin{aligned}f^*(\mathbf{y})&=\max_{\mathbf{x}}\{\mathbf{y}^T\mathbf{x}-f(\mathbf{x})\}\\&=\max_{\mathbf{x}}\left\{\mathbf{y}^T\mathbf{x}-\frac{1}{2}\mathbf{x}^T\mathbf{Ax}-\mathbf{b}^T\mathbf{x}-c\right\}\\&=\max_{\mathbf{x}}\left\{-\frac{1}{2}\mathbf{x}^T\mathbf{Ax}-(\mathbf{b-y})^T\mathbf{x}-c\right\}\\&=\frac{1}{2}(\mathbf{y-b})^T\mathbf{A}^{-1}(\mathbf{y-b})-c.\end{aligned} f(y)=xmax{yTxf(x)}=xmax{yTx21xTAxbTxc}=xmax{21xTAx(by)Txc}=21(yb)TA1(yb)c.这是因为内部函数为凹函数, 从而最大在梯度为 0 0 0的地方取得, 也就是 x ~ = A − 1 ( y − b ) \tilde\mathbf{x}=\mathbf{A}^{-1}(\mathbf{y-b}) x~=A1(yb).

4.7 凸二次函数

f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR定义为 f ( x ) = 1 2 x T A x + b T x + c f(\mathbf{x})=\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}+c f(x)=21xTAx+bTx+c, 其中 A ∈ S + n ,   b ∈ R n ,   c ∈ R \mathbf{A}\in\mathbb{S}_+^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R} AS+n,bRn,cR. 此例与前例唯一的区别在于这里的 A \mathbf{A} A仅仅是半正定矩阵. 对 ∀ y ∈ R n \forall\mathbf{y}\in\mathbb{R}^n yRn, f ∗ ( y ) = max ⁡ x { y T x − f ( x ) } = max ⁡ x { g ( x ) ≡ − 1 2 x T A x + ( y − b ) T x − c } . f^*(\mathbf{y})=\max_{\mathbf{x}}\{\mathbf{y}^T\mathbf{x}-f(\mathbf{x})\}=\max_{\mathbf{x}}\left\{g(\mathbf{x})\equiv-\frac{1}{2}\mathbf{x}^T\mathbf{Ax}+(\mathbf{y-b})^T\mathbf{x}-c\right\}. f(y)=xmax{yTxf(x)}=xmax{g(x)21xTAx+(yb)Txc}.由于内部为可微凹函数, 所以最大必在梯度为 0 0 0处取得, 也即 x ~ \tilde\mathbf{x} x~满足 A x ~ = y − b . \mathbf{A}\tilde\mathbf{x}=\mathbf{y-b}. Ax~=yb.

  • y − b ∈ R a n g e ( A ) \mathbf{y-b}\in\mathrm{Range}(\mathbf{A}) ybRange(A)时, x ~ \tilde\mathbf{x} x~可以取到, 且由无穷多解. 例如可取3其中的2-范数最小解 x ~ = A † ( y − b ) \tilde\mathbf{x}=\mathbf{A}^{\dagger}(\mathbf{y-b}) x~=A(yb), 这里 A † \mathbf{A}^{\dagger} A A \mathbf{A} A的Moore-Penrose伪逆4. 此时 f ∗ ( y ) = − 1 2 x ~ T A x ~ − ( b − y ) T x ~ − c = − 1 2 ( y − b ) T A † A A † ( y − b ) − ( b − y ) T A † ( y − b ) − c = 1 2 ( y − b ) T A † ( y − b ) − c , \begin{aligned}f^*(\mathbf{y})&=-\frac{1}{2}\tilde\mathbf{x}^T\mathbf{A\tilde x}-(\mathbf{b-y})^T\mathbf{\tilde x}-c\\&=-\frac{1}{2}(\mathbf{y-b})^T\mathbf{A^{\dagger}AA^{\dagger}}(\mathbf{y-b})-(\mathbf{b-y})^T\mathbf{A}^{\dagger}(\mathbf{y-b})-c\\&=\frac{1}{2}(\mathbf{y-b})^T\mathbf{A^{\dagger}(y-b)}-c,\end{aligned} f(y)=21x~TAx~(by)Tx~c=21(yb)TAAA(yb)(by)TA(yb)c=21(yb)TA(yb)c,这里用到了伪逆的性质 A † A A † = A † \mathbf{A^{\dagger}AA^{\dagger}}=\mathbf{A}^{\dagger} AAA=A以及 A \mathbf{A} A是对称矩阵的事实.
  • y − b ∉ R a n g e ( A ) \mathbf{y-b}\notin\mathrm{Range}(\mathbf{A}) yb/Range(A)时, 我们证明 f ∗ ( y ) = ∞ f^*(\mathbf{y})=\infty f(y)=. 因为 A ∈ S + n \mathbf{A}\in\mathbb{S}^n_+ AS+n, 所以 R a n g e ( A ) = N u l l ( A T ) ⊥ = N u l l ( A ) ⊥ \mathrm{Range}(\mathbf{A})=\mathrm{Null}(\mathbf{A}^T)^{\perp}=\mathrm{Null}(\mathbf{A})^{\perp} Range(A)=Null(AT)=Null(A). 故根据 y − b ∉ N u l l ( A ) ⊥ \mathbf{y-b}\not\in\mathrm{Null}(\mathbf{A})^{\perp} ybNull(A)可推出存在 v ∈ N u l l ( A ) \mathbf{v}\in\mathrm{Null}(\mathbf{A}) vNull(A)使得 ( y − b ) T v ≠ 0 (\mathbf{y-b})^T\mathbf{v}\ne0 (yb)Tv=0;不妨设 ( y − b ) T v > 0 \mathbf{(y-b)}^T\mathbf{v}>0 (yb)Tv>0. 注意对 ∀ α ∈ R \forall\alpha\in\mathbb{R} αR, g ( α v ) = α ( y − b ) T v − c , g(\alpha\mathbf{v})=\alpha(\mathbf{y-b})^T\mathbf{v}-c, g(αv)=α(yb)Tvc,因此当 α → ∞ \alpha\to\infty α, g ( α v ) → ∞ g(\alpha\mathbf{v})\to\infty g(αv). 故得证.

f ∗ ( y ) = { 1 2 ( y − b ) T A † ( y − b ) − c , y − b ∈ R a n g e ( A ) , ∞ , y − b ∉ R a n g e ( A ) . \boxed{f^*(\mathbf{y})=\left\{\begin{array}{ll}\frac{1}{2}(\mathbf{y-b})^T\mathbf{A}^{\dagger}(\mathbf{y-b})-c, & \mathbf{y-b}\in\mathrm{Range}(\mathbf{A}),\\\infty, & \mathbf{y-b}\notin\mathrm{Range}(\mathbf{A}).\end{array}\right.} f(y)={21(yb)TA(yb)c,,ybRange(A),yb/Range(A).

4.8 负熵函数

f : R n → ( − ∞ , ∞ ] f:\mathbb{R}^n\to(-\infty,\infty] f:Rn(,]定义为 f ( x ) = { ∑ i = 1 n x i log ⁡ x i , x ≥ 0 , ∞ , 其 它 . f(\mathbf{x})=\left\{\begin{array}{ll}\sum_{i=1}^nx_i\log x_i, & \mathbf{x}\ge\mathbf{0},\\\infty, & 其它.\end{array}\right. f(x)={i=1nxilogxi,,x0,.因为此函数是可分的, 因此我们只需求一维情形的共轭函数. 定义 g ( t ) = t log ⁡ t ,   t ≥ 0 ; ∞ ,   t < 0 g(t)=t\log t,\,t\ge0; \infty,\,t<0 g(t)=tlogt,t0;,t<0. 对 ∀ s ∈ R \forall s\in\mathbb{R} sR, g ∗ ( s ) = max ⁡ t { t s − g ( t ) } = max ⁡ t ≥ 0 { t s − t log ⁡ t } = e s − 1 , g^*(s)=\max_t\{ts-g(t)\}=\max_{t\ge0}\{ts-t\log t\}=e^{s-1}, g(s)=tmax{tsg(t)}=t0max{tstlogt}=es1,其中最大值在 t ~ = e s − 1 \tilde t=e^{s-1} t~=es1取到. 再由定理5, 对 ∀ y ∈ R n \forall\mathbf{y}\in\mathbb{R}^n yRn, 就有 f ∗ ( y ) = ∑ i = 1 n g ∗ ( y i ) = ∑ i = 1 n e y i − 1 . \boxed{f^*(\mathbf{y})=\sum_{i=1}^ng^*(y_i)=\sum_{i=1}^ne^{y_i-1}.} f(y)=i=1ng(yi)=i=1neyi1.

4.9 负对数和

f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR定义为 f ( x ) = { − ∑ i = 1 n log ⁡ x i , x > 0 , ∞ , 其 它 . f(\mathbf{x})=\left\{\begin{array}{ll}-\sum_{i=1}^n\log x_i, & \mathbf{x}>\mathbf{0},\\\infty, & 其它.\end{array}\right. f(x)={i=1nlogxi,,x>0,.再次, 由于 f f f可分, 根据4.2节负对数函数的例和定理5可得 f ∗ ( y ) = { − n − ∑ i = 1 n log ⁡ ( − y i ) , y < 0 , ∞ , 其 它 . \boxed{f^*(\mathbf{y})=\left\{\begin{array}{ll}-n-\sum_{i=1}^n\log(-y_i), & \mathbf{y}<\mathbf{0},\\\infty, & 其它.\end{array}\right.} f(y)={ni=1nlog(yi),,y<0,.

4.10 单位单纯形上的负熵函数

f : R n → R f:\mathbb{R}^n\to\mathbb{R} f:RnR定义为 f ( x ) = { ∑ i = 1 n x i log ⁡ x i , x ∈ Δ n , ∞ , 其 它 . f(\mathbf{x})=\left\{\begin{array}{ll}\sum_{i=1}^nx_i\log x_i, & \mathbf{x}\in\Delta_n,\\\infty, & 其它.\end{array}\right. f(x)={i=1nxilogxi,,xΔn,. ∀ y ∈ R n \forall\mathbf{y}\in\mathbb{R}^n yRn, f ∗ ( y ) = max ⁡ x { ∑ i = 1 n y i x i − ∑ i = 1 n x i log ⁡ x i : ∑ i = 1 n x i = 1 ,   x 1 , x 2 , … , x n ≥ 0 } . f^*(\mathbf{y})=\max_{\mathbf{x}}\left\{\sum_{i=1}^ny_ix_i-\sum_{i=1}^nx_i\log x_i:\sum_{i=1}^nx_i=1,\,x_1,x_2,\ldots,x_n\ge0\right\}. f(y)=xmax{i=1nyixii=1nxilogxi:i=1nxi=1,x1,x2,,xn0}.根据第三章例26, 上述极大问题的最优解为 x i ∗ = e y i ∑ j = 1 n e y j , i = 1 , 2 , … , n , x_i^*=\frac{e^{y_i}}{\sum_{j=1}^ne^{y_j}},\quad i=1,2,\ldots,n, xi=j=1neyjeyi,i=1,2,,n,对应的最优值为 f ∗ ( y ) = log ⁡ ( ∑ j = 1 n e y j ) . \boxed{f^*(\mathbf{y})=\log\left(\sum_{j=1}^ne^{y_j}\right).} f(y)=log(j=1neyj).对数和指数函数.

4.11 对数和指数函数

g : R n → R g:\mathbb{R}^n\to\mathbb{R} g:RnR定义为 g ( x ) = log ⁡ ( ∑ j = 1 n e x j ) . g(\mathbf{x})=\log\left(\sum_{j=1}^ne^{x_j}\right). g(x)=log(j=1nexj).由上一例, g = f ∗ g=f^* g=f. 而 f f f是正常闭凸函数, 根据定理4, f ∗ ∗ = f f^{**}=f f=f. 所以 g ∗ ( y ) = { ∑ i = 1 n y i log ⁡ y i , y ∈ Δ n , ∞ , 其 它 . \boxed{g^*(\mathbf{y})=\left\{\begin{array}{ll}\sum_{i=1}^ny_i\log y_i, & \mathbf{y}\in\Delta_n,\\\infty, & 其它.\end{array}\right.} g(y)={i=1nyilogyi,,yΔn,.

4.12 范数

f : E → R f:\mathbb{E}\to\mathbb{R} f:ER定义为 f ( x ) = ∥ x ∥ f(\mathbf{x})=\Vert\mathbf{x}\Vert f(x)=x. 根据第二章例12, f = σ B ∥ ⋅ ∥ ∗ [ 0 , 1 ] , f=\sigma_{B_{\Vert\cdot\Vert_*}[\mathbf{0},1]}, f=σB[0,1],这里我们使用了欧式空间 E \mathbb{E} E E ∗ ∗ \mathbb{E}^{**} E在元素上一一对应, 且对应元素范数数值相等的性质. 再由例3, f ∗ = δ c l ( c o n v ( B ∥ ⋅ ∥ ∗ [ 0 , 1 ] ) ) , f^*=\delta_{\mathrm{cl(conv}(B_{\Vert\cdot\Vert_*}[\mathbf{0},1]))}, f=δcl(conv(B[0,1])), B ∥ ⋅ ∥ ∗ [ 0 , 1 ] B_{\Vert\cdot\Vert_*}[\mathbf{0},1] B[0,1]本身就是闭凸集, 所以 c l ( c o n v ( B ∥ ⋅ ∥ ∗ [ 0 , 1 ] ) ) = B ∥ ⋅ ∥ ∗ [ 0 , 1 ] \mathrm{cl(conv}(B_{\Vert\cdot\Vert_*}[\mathbf{0},1]))=B_{\Vert\cdot\Vert_*}[\mathbf{0},1] cl(conv(B[0,1]))=B[0,1]. 因此对 ∀ y ∈ E ∗ \forall\mathbf{y}\in\mathbb{E}^* yE, f ∗ ( y ) = δ B ∥ ⋅ ∥ ∗ [ 0 , 1 ] ( y ) = { 0 , ∥ y ∥ ∗ ≤ 1 , ∞ , 其 它 . \boxed{f^*(\mathbf{y})=\delta_{B_{\Vert\cdot\Vert_*}[\mathbf{0},1]}(\mathbf{y})=\left\{\begin{array}{ll}0, & \Vert\mathbf{y}\Vert_*\le1,\\\infty, & 其它.\end{array}\right.} f(y)=δB[0,1](y)={0,,y1,.

4.13 下半球面

f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]定义为 f ( x ) = { − 1 − ∥ x ∥ 2 , ∥ x ∥ ≤ 1 , ∞ , 其 它 . f(\mathbf{x})=\left\{\begin{array}{ll}-\sqrt{1-\Vert\mathbf{x}\Vert^2}, & \Vert\mathbf{x}\Vert\le1,\\\infty, & 其它.\end{array}\right. f(x)={1x2 ,,x1,.为计算其共轭函数, 我们先依定义写出如下的二次极大化形式: 对 ∀ y ∈ E ∗ \forall\mathbf{y}\in\mathbb{E}^* yE, f ∗ ( y ) = max ⁡ x { ⟨ y , x ⟩ + 1 − ∥ x ∥ 2 : ∥ x ∥ ≤ 1 } = max ⁡ α ∈ [ 0 , 1 ] max ⁡ x : ∥ x ∥ = α { ⟨ y , x ⟩ + 1 − α 2 } = max ⁡ α ∈ [ 0 , 1 ] { α ∥ y ∥ ∗ + 1 − α 2 } , \begin{aligned}f^*(\mathbf{y})&=\max_{\mathbf{x}}\left\{\langle\mathbf{y,x}\rangle+\sqrt{1-\Vert\mathbf{x}\Vert^2}:\Vert\mathbf{x}\Vert\le1\right\}\\&=\max_{\alpha\in[0,1]}\max_{\mathbf{x}:\Vert\mathbf{x}\Vert=\alpha}\left\{\langle\mathbf{y,x}\rangle+\sqrt{1-\alpha^2}\right\}\\ &=\max_{\alpha\in[0,1]}\left\{\alpha\Vert\mathbf{y}\Vert_*+\sqrt{1-\alpha^2}\right\},\end{aligned} f(y)=xmax{y,x+1x2 :x1}=α[0,1]maxx:x=αmax{y,x+1α2 }=α[0,1]max{αy+1α2 },其中最后一个等式是根据对偶范数的定义. 由于内部关于 α \alpha α的函数是凹函数, 所以令导数为0, 可得内部在 [ 0 , 1 ] [0,1] [0,1]上的最大取在 α ~ = ∥ y ∥ ∗ ∥ y ∥ ∗ 2 + 1 . \tilde\alpha=\frac{\Vert\mathbf{y}\Vert_*}{\sqrt{\Vert\mathbf{y}\Vert_*^2+1}}. α~=y2+1 y.此时最大值即为 f ∗ ( y ) = ∥ y ∥ ∗ 2 + 1 . \boxed{f^*(\mathbf{y})=\sqrt{\Vert\mathbf{y}\Vert_*^2+1}.} f(y)=y2+1 .利用定理7(ii), 我们可以将此结果推广至任意半径的下半球. 设 f α ( x ) = { − α 2 − ∥ x ∥ 2 , ∥ x ∥ ≤ α , ∞ , 其 它 , f_{\alpha}(\mathbf{x})=\left\{\begin{array}{ll}-\sqrt{\alpha^2-\Vert\mathbf{x}\Vert^2}, & \Vert\mathbf{x}\Vert\le\alpha,\\\infty, & 其它,\end{array}\right. fα(x)={α2x2 ,,xα,,这里 α ∈ R + + \alpha\in\mathbb{R}_{++} αR++为半径. 此时 f = f 1 f=f_1 f=f1. 易知 f α ( x ) = α f ( x α ) f_{\alpha}(\mathbf{x})=\alpha f(\frac{\mathbf{x}}{\alpha}) fα(x)=αf(αx), 所以对 ∀ y ∈ E ∗ \forall\mathbf{y}\in\mathbb{E}^* yE, f α ∗ ( y ) = α f ∗ ( y ) = α 1 + ∥ y ∥ ∗ 2 . \boxed{f^*_{\alpha}(\mathbf{y})=\alpha f^*(\mathbf{y})=\alpha\sqrt{1+\Vert\mathbf{y}\Vert_*^2}.} fα(y)=αf(y)=α1+y2 .

4.14 α 2 + ∥ ⋅ ∥ 2 \sqrt{\alpha^2+\Vert\cdot\Vert^2} α2+2

g α : E → R g_{\alpha}:\mathbb{E}\to\mathbb{R} gα:ER定义为 g α = α 2 + ∥ x ∥ 2 g_{\alpha}=\sqrt{\alpha^2+\Vert\mathbf{x}\Vert^2} gα=α2+x2 , 其中 α > 0 \alpha>0 α>0. 类似于4.13节, g α ( x ) = α g ( x α ) g_{\alpha}(\mathbf{x})=\alpha g(\frac{\mathbf{x}}{\alpha}) gα(x)=αg(αx), 其中 g ( x ) = 1 + ∥ x ∥ 2 g(\mathbf{x})=\sqrt{1+\Vert\mathbf{x}\Vert^2} g(x)=1+x2 . 再由4.13节, 即知 g = f ∗ g=f^* g=f, 其中 f ( y ) = { − 1 − ∥ y ∥ ∗ 2 , ∥ y ∥ ∗ ≤ 1 , ∞ , 其 它 . f(\mathbf{y})=\left\{\begin{array}{ll}-\sqrt{1-\Vert\mathbf{y}\Vert_*^2}, & \Vert\mathbf{y}\Vert_*\le1,\\\infty, & 其它.\end{array}\right. f(y)={1y2 ,,y1,.易验证 f f f是正常闭凸函数, 于是由定理4, g ∗ = f ∗ ∗ = f g^*=f^{**}=f g=f=f. 最后根据定理7(ii), 对 ∀ y ∈ E ∗ \forall\mathbf{y}\in\mathbb{E}^* yE, g α ∗ ( y ) = α g ∗ ( y ) = α f ∗ ( y ) = { − α 1 − ∥ y ∥ ∗ 2 , ∥ y ∥ ∗ ≤ 1 , ∞ , 其 它 . \boxed{g_{\alpha}^*(\mathbf{y})=\alpha g^*(\mathbf{y})=\alpha f^*(\mathbf{y})=\left\{\begin{array}{ll}-\alpha\sqrt{1-\Vert\mathbf{y}\Vert_*^2}, & \Vert\mathbf{y}\Vert_*\le1,\\\infty, & 其它.\end{array}\right.} gα(y)=αg(y)=αf(y)={α1y2 ,,y1,.

4.15 范数平方

f : E → R f:\mathbb{E}\to\mathbb{R} f:ER定义为 f ( x ) = 1 2 ∥ x ∥ 2 f(\mathbf{x})=\frac{1}{2}\Vert\mathbf{x}\Vert^2 f(x)=21x2, 其中 ∥ ⋅ ∥ \Vert\cdot\Vert E \mathbb{E} E中的范数. 对 ∀ y ∈ E ∗ \forall\mathbf{y}\in\mathbb{E}^* yE, f ∗ ( y ) = max ⁡ x { ⟨ y , x ⟩ − 1 2 ∥ x ∥ 2 } = max ⁡ α ≥ 0 max ⁡ x : ∥ x ∥ = α { ⟨ y , x ⟩ − 1 2 α 2 } = max ⁡ α ≥ 0 { α ∥ y ∥ ∗ − 1 2 α 2 } = 1 2 ∥ y ∥ ∗ 2 , \begin{aligned}f^*(\mathbf{y})=\max_{\mathbf{x}}\left\{\langle\mathbf{y,x}\rangle-\frac{1}{2}\Vert\mathbf{x}\Vert^2\right\}&=\max_{\alpha\ge0}\max_{\mathbf{x}:\Vert\mathbf{x}\Vert=\alpha}\left\{\langle\mathbf{y,x}\rangle-\frac{1}{2}\alpha^2\right\}\\ &=\max_{\alpha\ge0}\left\{\alpha\Vert\mathbf{y}\Vert_*-\frac{1}{2}\alpha^2\right\}\\ &=\frac{1}{2}\Vert\mathbf{y}\Vert_*^2,\end{aligned} f(y)=xmax{y,x21x2}=α0maxx:x=αmax{y,x21α2}=α0max{αy21α2}=21y2,其中第三个等号是根据对偶范数的定义. f ∗ ( y ) = 1 2 ∥ y ∥ ∗ 2 . \boxed{f^*(\mathbf{y})=\frac{1}{2}\Vert\mathbf{y}\Vert_*^2.} f(y)=21y2.

4.16 共轭函数计算小结

f ( x ) f(\mathbf{x}) f(x) d o m ( f ) \mathrm{dom}(f) dom(f) f ∗ f^* f假设条件小节或例号
e x e^x ex R \mathbb{R} R y log ⁡ y − y ,   y ≥ 0 y\log y-y,\,y\ge0 ylogyy,y0-4.1
− log ⁡ x -\log x logx R + + \mathbb{R}_{++} R++ − 1 − log ⁡ ( − y ) ,   y < 0 -1-\log(-y),\,y<0 1log(y),y<0-4.2
max ⁡ { 1 − x , 0 } \max\{1-x,0\} max{1x,0} R \mathbb{R} R y + δ [ − 1 , 0 ] ( y ) y+\delta_{[-1,0]}(y) y+δ[1,0](y)-4.3
1 p a b s ( x ) p \frac{1}{p}\mathrm{abs}(x)^p p1abs(x)p R \mathbb{R} R 1 q a b s ( y ) q \frac{1}{q}\mathrm{abs}(y)^q q1abs(y)q p > 1 ,   1 p + 1 q = 1 p>1,\,\frac{1}{p}+\frac{1}{q}=1 p>1,p1+q1=14.4
− x p p -\frac{x^p}{p} pxp R + \mathbb{R}_+ R+ − ( − y ) q q ,   y < 0 -\frac{(-y)^q}{q},\,y<0 q(y)q,y<0 0 < p < 1 ,   1 p + 1 q = 1 0<p<1,\,\frac{1}{p}+\frac{1}{q}=1 0<p<1,p1+q1=14.5
1 2 x T A x + b T x + c \frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}+c 21xTAx+bTx+c R n \mathbb{R}^n Rn 1 2 ( y − b ) T A − 1 ( y − b ) − c \frac{1}{2}(\mathbf{y-b})^T\mathbf{A}^{-1}(\mathbf{y-b})-c 21(yb)TA1(yb)c A ∈ S + + n ,   b ∈ R n ,   c ∈ R \mathbf{A}\in\mathbb{S}^n_{++},\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R} AS++n,bRn,cR4.6
1 2 x T A x + b T x + c \frac{1}{2}\mathbf{x}^T\mathbf{Ax}+\mathbf{b}^T\mathbf{x}+c 21xTAx+bTx+c R n \mathbb{R}^n Rn 1 2 ( y − b ) T A † ( y − b ) − c ,   y ∈ b + R a n g e ( A ) \frac{1}{2}(\mathbf{y-b})^T\mathbf{A}^{\dagger}(\mathbf{y-b})-c,\,\mathbf{y}\in\mathbf{b}+\mathrm{Range}(\mathbf{A}) 21(yb)TA(yb)c,yb+Range(A) A ∈ S + n ,   b ∈ R n ,   c ∈ R \mathbf{A}\in\mathbb{S}_+^n,\,\mathbf{b}\in\mathbb{R}^n,\,c\in\mathbb{R} AS+n,bRn,cR4.7
∑ i = 1 n x i log ⁡ x i \sum_{i=1}^nx_i\log x_i i=1nxilogxi R + n \mathbb{R}^n_+ R+n ∑ i = 1 n e y i − 1 \sum_{i=1}^ne^{y_i-1} i=1neyi1-4.8
∑ i = 1 n x i log ⁡ x i \sum_{i=1}^nx_i\log x_i i=1nxilogxi Δ n \Delta_n Δn log ⁡ ( ∑ i = 1 n e y i ) \log\left(\sum_{i=1}^ne^{y_i}\right) log(i=1neyi)-4.10
− ∑ i = 1 n log ⁡ x i -\sum_{i=1}^n\log x_i i=1nlogxi R + + n \mathbb{R}^n_{++} R++n − n − ∑ i = 1 n log ⁡ ( − y i ) ,   y < 0 -n-\sum_{i=1}^n\log(-y_i),\,\mathbf{y}\lt\mathbf{0} ni=1nlog(yi),y<0-4.9
log ⁡ ( ∑ i = 1 n e x i ) \log\left(\sum_{i=1}^ne^{x_i}\right) log(i=1nexi) R n \mathbb{R}^n Rn ∑ i = 1 n y i log ⁡ y i ,   y ∈ Δ n \sum_{i=1}^ny_i\log y_i,\,\mathbf{y}\in\Delta_n i=1nyilogyi,yΔn-4.11
max ⁡ i { x i } \max_i\{x_i\} maxi{xi} R n \mathbb{R}^n Rn δ Δ n ( y ) \delta_{\Delta_n}(\mathbf{y}) δΔn(y)-4
δ C ( x ) \delta_C(\mathbf{x}) δC(x) C C C σ C ( y ) \sigma_C(\mathbf{y}) σC(y) ∅ ≠ C ⊂ E \emptyset\ne C\subset\mathbb{E} =CE1
σ C ( x ) \sigma_C(\mathbf{x}) σC(x) d o m ( σ C ) \mathrm{dom}(\sigma_C) dom(σC) δ c l ( c o n v ( C ) ) ( y ) \delta_{\mathrm{cl(conv}(C))}(\mathbf{y}) δcl(conv(C))(y) ∅ ≠ C ⊂ E \emptyset\ne C\subset\mathbb{E} =CE3
∥ x ∥ \Vert\mathbf{x}\Vert x E \mathbb{E} E δ B ∥ ⋅ ∥ ∗ [ 0 , 1 ] ( y ) \delta_{B_{\Vert\cdot\Vert_*}[\mathbf{0},1]}(\mathbf{y}) δB[0,1](y)-4.12
− α 2 − ∥ x ∥ 2 -\sqrt{\alpha^2-\Vert\mathbf{x}\Vert^2} α2x2 B [ 0 , α ] B[\mathbf{0},\alpha] B[0,α] α ∥ y ∥ ∗ 2 + 1 \alpha\sqrt{\Vert\mathbf{y}\Vert_*^2+1} αy2+1 α > 0 \alpha>0 α>04.13
α 2 + ∥ x ∥ 2 \sqrt{\alpha^2+\Vert\mathbf{x}\Vert^2} α2+x2 E \mathbb{E} E − α 1 − ∥ y ∥ ∗ 2 ,   y ∈ B ∥ ⋅ ∥ ∗ [ 0 , 1 ] -\alpha\sqrt{1-\Vert\mathbf{y}\Vert_*^2},\,\mathbf{y}\in B_{\Vert\cdot\Vert_*}[\mathbf{0},1] α1y2 ,yB[0,1] α > 0 \alpha>0 α>04.14
1 2 ∥ x ∥ 2 \frac{1}{2}\Vert\mathbf{x}\Vert^2 21x2 E \mathbb{E} E 1 2 ∥ y ∥ ∗ 2 \frac{1}{2}\Vert\mathbf{y}\Vert_*^2 21y2-4.15
1 2 ∥ x ∥ 2 + δ C ( x ) \frac{1}{2}\Vert\mathbf{x}\Vert^2+\delta_C(\mathbf{x}) 21x2+δC(x) C C C 1 2 ∥ y ∥ 2 − 1 2 d C 2 ( y ) \frac{1}{2}\Vert\mathbf{y}\Vert^2-\frac{1}{2}d_C^2(\mathbf{y}) 21y221dC2(y) ∅ ≠ C ⊂ E \emptyset\ne C\subset\mathbb{E} =CE, E \mathbb{E} E为欧式空间2
1 2 ∥ x ∥ 2 − 1 2 d C 2 ( x ) \frac{1}{2}\Vert\mathbf{x}\Vert^2-\frac{1}{2}d_C^2(\mathbf{x}) 21x221dC2(x) E \mathbb{E} E 1 2 ∥ y ∥ 2 + δ C ( y ) \frac{1}{2}\Vert\mathbf{y}\Vert^2+\delta_C(\mathbf{y}) 21y2+δC(y) ∅ ≠ C ⊂ E \emptyset\ne C\subset\mathbb{E} =CE为闭凸集, E \mathbb{E} E为欧式空间5

4.17 Fenchel对偶定理

共轭函数自然地出现在对偶问题中. 这在著名的Fenchel对偶定理中最为突出. 考虑问题 ( P )   min ⁡ x ∈ E f ( x ) + g ( x ) . (P)\,\min\limits_{\mathbf{x}\in\mathbb{E}}f(\mathbf{x})+g(\mathbf{x}). (P)xEminf(x)+g(x).引入分裂变量 z \mathbf{z} z得到等价的问题 min ⁡ x , z ∈ E { f ( x ) + g ( z ) : x = z } \min_{\mathbf{x,z}\in\mathbb{E}}\{f(\mathbf{x})+g(\mathbf{z}):\mathbf{x=z}\} x,zEmin{f(x)+g(z):x=z}并写出此问题的Lagrange函数 L ( x , z ; y ) = f ( x ) + g ( z ) + ⟨ y , z − x ⟩ = − [ ⟨ y , x ⟩ − f ( x ) ] − [ ⟨ − y , z ⟩ − g ( z ) ] . L(\mathbf{x,z;y})=f(\mathbf{x})+g(\mathbf{z})+\langle\mathbf{y,z-x}\rangle=-[\langle\mathbf{y,x}\rangle-f(\mathbf{x})]-[\langle-\mathbf{y,z}\rangle-g(\mathbf{z})]. L(x,z;y)=f(x)+g(z)+y,zx=[y,xf(x)][y,zg(z)].对原始变量 x , z \mathbf{x,z} x,z极小化Lagrange函数并根据共轭函数的定义就有 q ( y ) = min ⁡ x , z L ( x , z ; y ) = − f ∗ ( y ) − g ∗ ( − y ) . q(\mathbf{y})=\min_{\mathbf{x,z}}L(\mathbf{x,z;y})=-f^*(\mathbf{y})-g^*(\mathbf{-y}). q(y)=x,zminL(x,z;y)=f(y)g(y).于是得到如下对偶问题, 我们称之为Fenchel对偶 (Fenchel’s dual): ( D )   max ⁡ y ∈ E ∗ { − f ∗ ( y ) − g ∗ ( − y ) } . (D)\,\max_{\mathbf{y}\in\mathbb{E}^*}\{-f^*(\mathbf{y})-g^*(-\mathbf{y})\}. (D)yEmax{f(y)g(y)}.而Fenchel对偶定理5则给出了对于问题 ( P ) (P) (P) ( D ) (D) (D)强对偶性成立的条件.

定理8 (Fenchel对偶定理) 设 f , g : E → ( − ∞ , ∞ ] f,g:\mathbb{E}\to(-\infty,\infty] f,g:E(,]为正常凸函数. 若 r i ( d o m ( f ) ) ∩ r i ( d o m ( g ) ) ≠ ∅ \mathrm{ri(dom}(f))\cap\mathrm{ri(dom}(g))\ne\emptyset ri(dom(f))ri(dom(g))=, 则 min ⁡ x ∈ E { f ( x ) + g ( x ) } = max ⁡ y ∈ E ∗ { − f ∗ ( y ) − g ∗ ( − y ) } , \min_{\mathbf{x}\in\mathbb{E}}\{f(\mathbf{x})+g(\mathbf{x})\}=\max_{\mathbf{y}\in\mathbb{E}^*}\{-f^*(\mathbf{y})-g^*(-\mathbf{y})\}, xEmin{f(x)+g(x)}=yEmax{f(y)g(y)},并且若右端最优值有限, 则它必可以达到.

5. 极小卷积与共轭

本节我们将说明在共轭运算下, 加法与极小卷积运算在某种意义下是对偶的.

定理9 (极小卷积的共轭) 对任意两个正常函数 h 1 , h 2 : E → ( − ∞ , ∞ ] h_1,h_2:\mathbb{E}\to(-\infty,\infty] h1,h2:E(,], 均有 ( h 1 □ h 2 ) ∗ = h 1 ∗ + h 2 ∗ (h_1\square h_2)^*=h_1^*+h_2^* (h1h2)=h1+h2成立.

证明: 对任意 y ∈ E ∗ \mathbf{y}\in\mathbb{E}^* yE, ( h 1 □ h 2 ) ∗ ( y ) = max ⁡ x ∈ E { ⟨ y , x ⟩ − ( h 1 □ h 2 ) ( x ) } = max ⁡ x ∈ E { ⟨ y , x ⟩ − min ⁡ u ∈ E { h 1 ( u ) + h 2 ( x − u ) } } = max ⁡ x ∈ E max ⁡ u ∈ E { ⟨ y , x ⟩ − h 1 ( u ) − h 2 ( x − u ) } = max ⁡ x ∈ E max ⁡ u ∈ E { ⟨ y , x − u ⟩ + ⟨ y , u ⟩ − h 1 ( u ) − h 2 ( x − u ) } = max ⁡ u ∈ E max ⁡ x ∈ E { ⟨ y , x − u ⟩ + ⟨ y , u ⟩ − h 1 ( u ) − h 2 ( x − u ) } = max ⁡ u ∈ E { h 2 ∗ ( y ) + ⟨ y , u ⟩ − h 1 ( u ) } = h 1 ∗ ( y ) + h 2 ∗ ( y ) . \begin{aligned}(h_1\square h_2)^*(\mathbf{y})&=\max_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{y,x}\rangle-(h_1\square h_2)(\mathbf{x})\}\\&=\max_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{y,x}\rangle-\min_{\mathbf{u}\in\mathbb{E}}\{h_1(\mathbf{u})+h_2(\mathbf{x-u})\}\}\\&=\max_{\mathbf{x}\in\mathbb{E}}\max_{\mathbf{u}\in\mathbb{E}}\{\langle\mathbf{y,x}\rangle-h_1(\mathbf{u})-h_2(\mathbf{x-u})\}\\&=\max_{\mathbf{x}\in\mathbb{E}}\max_{\mathbf{u}\in\mathbb{E}}\{\langle\mathbf{y,x-u}\rangle+\langle\mathbf{y,u}\rangle-h_1(\mathbf{u})-h_2(\mathbf{x-u})\}\\&=\max_{\mathbf{u}\in\mathbb{E}}\max_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{y,x-u}\rangle+\langle\mathbf{y,u}\rangle-h_1(\mathbf{u})-h_2(\mathbf{x-u})\}\\&=\max_{\mathbf{u}\in\mathbb{E}}\{h_2^*(\mathbf{y})+\langle\mathbf{y,u}\rangle-h_1(\mathbf{u})\}\\&=h_1^*(\mathbf{y})+h_2^*(\mathbf{y}).\end{aligned} (h1h2)(y)=xEmax{y,x(h1h2)(x)}=xEmax{y,xuEmin{h1(u)+h2(xu)}}=xEmaxuEmax{y,xh1(u)h2(xu)}=xEmaxuEmax{y,xu+y,uh1(u)h2(xu)}=uEmaxxEmax{y,xu+y,uh1(u)h2(xu)}=uEmax{h2(y)+y,uh1(u)}=h1(y)+h2(y).

注意卷积到和这一方向所需的条件非常弱——只需要所涉及的函数是正常的即可. 但反过来就没那么直接了, 我们需要加一些额外的假设条件(比如函数的凸性).

定理10 (和的共轭) 设 h 1 : E → ( − ∞ , ∞ ] h_1:\mathbb{E}\to(-\infty,\infty] h1:E(,]为一正常凸函数, h 2 : E → R h_2:\mathbb{E}\to\mathbb{R} h2:ER为一实值凸函数. 则 ( h 1 + h 2 ) ∗ = h 1 ∗ □ h 2 ∗ . (h_1+h_2)^*=h_1^*\square h_2^*. (h1+h2)=h1h2.
证明: 对 ∀ y ∈ E ∗ \forall\mathbf{y}\in\mathbb{E}^* yE, ( h 1 + h 2 ) ∗ ( y ) = max ⁡ x ∈ E { ⟨ y , x ⟩ − h 1 ( x ) − h 2 ( x ) } = − min ⁡ x ∈ E { h 1 ( x ) + h 2 ( x ) − ⟨ y , x ⟩ } = − min ⁡ x ∈ E { h 1 ( x ) + g ( x ) } , \begin{aligned}(h_1+h_2)^*(\mathbf{y})&=\max_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{y,x}\rangle-h_1(\mathbf{x})-h_2(\mathbf{x})\}\\&=-\min_{\mathbf{x}\in\mathbb{E}}\{h_1(\mathbf{x})+h_2(\mathbf{x})-\langle\mathbf{y,x}\rangle\}\\&=-\min_{\mathbf{x}\in\mathbb{E}}\{h_1(\mathbf{x})+g(\mathbf{x})\},\end{aligned} (h1+h2)(y)=xEmax{y,xh1(x)h2(x)}=xEmin{h1(x)+h2(x)y,x}=xEmin{h1(x)+g(x)},这里 g ( x ) ≡ h 2 ( x ) − ⟨ y , x ⟩ g(\mathbf{x})\equiv h_2(\mathbf{x})-\langle\mathbf{y,x}\rangle g(x)h2(x)y,x. 注意到 r i ( d o m ( h 1 ) ) ∩ r i ( d o m ( g ) ) = r i ( d o m ( h 1 ) ) ∩ E = r i ( d o m ( h 1 ) ) ≠ ∅ , \mathrm{ri(dom}(h_1))\cap\mathrm{ri(dom}(g))=\mathrm{ri(dom}(h_1))\cap\mathbb{E}=\mathrm{ri(dom}(h_1))\ne\emptyset, ri(dom(h1))ri(dom(g))=ri(dom(h1))E=ri(dom(h1))=,于是由Fenchel对偶定理就有 min ⁡ x ∈ E { h 1 ( x ) + g ( x ) } = max ⁡ z ∈ E ∗ { − h 1 ∗ ( z ) − g ∗ ( − z ) } = max ⁡ z ∈ E ∗ { − h 1 ∗ ( z ) − h 2 ∗ ( y − z ) } . \min_{\mathbf{x}\in\mathbb{E}}\{h_1(\mathbf{x})+g(\mathbf{x})\}=\max_{\mathbf{z}\in\mathbb{E}^*}\{-h_1^*(\mathbf{z})-g^*(-\mathbf{z})\}=\max_{\mathbf{z}\in\mathbb{E}^*}\{-h_1^*(\mathbf{z})-h_2^*(\mathbf{y-z})\}. xEmin{h1(x)+g(x)}=zEmax{h1(z)g(z)}=zEmax{h1(z)h2(yz)}.这里最后一个等号来自于共轭函数的定义. 联立之前的等式, 就有对 ∀ y ∈ E ∗ \forall\mathbf{y}\in\mathbb{E}^* yE, ( h 1 + h 2 ) ∗ ( y ) = min ⁡ z ∈ E ∗ { h 1 ∗ ( z ) + h 2 ∗ ( y − z ) } = ( h 1 ∗ □ h 2 ∗ ) ( y ) . (h_1+h_2)^*(\mathbf{y})=\min_{\mathbf{z}\in\mathbb{E}^*}\{h_1^*(\mathbf{z})+h_2^*(\mathbf{y-z})\}=(h_1^*\square h_2^*)(\mathbf{y}). (h1+h2)(y)=zEmin{h1(z)+h2(yz)}=(h1h2)(y).
推论1 h 1 : E → ( − ∞ , ∞ ] h_1:\mathbb{E}\to(-\infty,\infty] h1:E(,]为一正常闭凸函数, h 2 : E → R h_2:\mathbb{E}\to\mathbb{R} h2:ER为一实值凸函数. 则 h 1 + h 2 = ( h 1 ∗ □ h 2 ∗ ) ∗ . h_1+h_2=(h_1^*\square h_2^*)^*. h1+h2=(h1h2).
证明: 由 h 1 , h 2 h_1,h_2 h1,h2的正常闭凸性, h 1 + h 2 h_1+h_2 h1+h2也是正常闭凸的. 因此由定理4, ( h 1 + h 2 ) ∗ ∗ = h 1 + h 2 (h_1+h_2)^{**}=h_1+h_2 (h1+h2)=h1+h2, 再由定理10, h 1 + h 2 = ( h 1 + h 2 ) ∗ ∗ = [ ( h 1 + h 2 ) ∗ ] ∗ = ( h 1 ∗ □ h 2 ∗ ) ∗ . h_1+h_2=(h_1+h_2)^{**}=[(h_1+h_2)^*]^*=(h_1^*\square h_2^*)^*. h1+h2=(h1+h2)=[(h1+h2)]=(h1h2).
下面的定理11则告诉我们把推论1中的 h 1 , h 2 h_1,h_2 h1,h2分别换成 h 1 ∗ , h 2 ∗ h_1^*,h_2^* h1,h2后结论是怎样的.

定理11 (用共轭表示的极小卷积) 设 h 1 : E → ( − ∞ , ∞ ] h_1:\mathbb{E}\to(-\infty,\infty] h1:E(,]为一正常凸函数, h 2 : E → R h_2:\mathbb{E}\to\mathbb{R} h2:ER为一实值凸函数. 假设 h 1 □ h 2 h_1\square h_2 h1h2是实值函数. 则 h 1 □ h 2 = ( h 1 ∗ + h 2 ∗ ) ∗ . h_1\square h_2=(h_1^*+h_2^*)^*. h1h2=(h1+h2).
证明: 由定理9, ( h 1 □ h 2 ) ∗ = h 1 ∗ + h 2 ∗ . (h_1\square h_2)^*=h_1^*+h_2^*. (h1h2)=h1+h2. h 1 h_1 h1正常凸, h 2 h_2 h2实值凸, 根据第二章定理8, h 1 □ h 2 h_1\square h_2 h1h2是凸函数. 又由条件 h 1 □ h 2 h_1\square h_2 h1h2是实值的, 从而必定是正常的. 再由第二章定理3和定理9, 我们推出实值凸函数 h 1 □ h 2 h_1\square h_2 h1h2是闭函数. 再次由本章定理4, ( h 1 □ h 2 ) ∗ ∗ = h 1 □ h 2 (h_1\square h_2)^{**}=h_1\square h_2 (h1h2)=h1h2. 从而 h 1 □ h 2 = ( h 1 □ h 2 ) ∗ ∗ = [ ( h 1 □ h 2 ) ∗ ] ∗ = ( h 1 ∗ + h 2 ∗ ) ∗ . h_1\square h_2=(h_1\square h_2)^{**}=[(h_1\square h_2)^*]^*=(h_1^*+h_2^*)^*. h1h2=(h1h2)=[(h1h2)]=(h1+h2).

6. 共轭函数的次微分

定理12 (共轭次梯度定理) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]是正常凸函数. 对 ∀ x ∈ E ,   y ∈ E ∗ \forall\mathbf{x}\in\mathbb{E},\,\mathbf{y}\in\mathbb{E}^* xE,yE, 下面两件事等价:
(i) ⟨ x , y ⟩ = f ( x ) + f ∗ ( y ) . \langle\mathbf{x,y}\rangle=f(\mathbf{x})+f^*(\mathbf{y}). x,y=f(x)+f(y).
(ii) y ∈ ∂ f ( x ) . \mathbf{y}\in\partial f(\mathbf{x}). yf(x).
若还有 f f f是闭函数, 则(i),(ii)与下面的(iii)也是等价的:
(iii) x ∈ ∂ f ∗ ( y ) . \mathbf{x}\in\partial f^*(\mathbf{y}). xf(y).

证明: y ∈ ∂ f ( x ) \mathbf{y}\in\partial f(\mathbf{x}) yf(x)当且仅当 f ( z ) ≥ f ( x ) + ⟨ y , z − x ⟩ , ∀ z ∈ E , f(\mathbf{z})\ge f(\mathbf{x})+\langle\mathbf{y,z-x}\rangle,\quad\forall\mathbf{z}\in\mathbb{E}, f(z)f(x)+y,zx,zE,这等同于 ⟨ y , x ⟩ − f ( x ) ≥ ⟨ y , z ⟩ − f ( z ) , ∀ z ∈ E . \langle\mathbf{y,x}\rangle-f(\mathbf{x})\ge\langle\mathbf{y,z}\rangle-f(\mathbf{z}),\quad\forall\mathbf{z}\in\mathbb{E}. y,xf(x)y,zf(z),zE. z \mathbf{z} z取极大, 于是上式又等价于 ⟨ y , x ⟩ − f ( x ) ≥ f ∗ ( y ) , \langle\mathbf{y,x}\rangle-f(\mathbf{x})\ge f^*(\mathbf{y}), y,xf(x)f(y),而由Fenchel不等式, 这又等价于 ⟨ x , y ⟩ = f ( x ) + f ∗ ( y ) \langle\mathbf{x,y}\rangle=f(\mathbf{x})+f^*(\mathbf{y}) x,y=f(x)+f(y). 这样, 我们就证明了(i)和(ii)的等价性. 现假设 f f f是闭函数, 则由定理4, f ∗ ∗ = f f^{**}=f f=f. 这样一来, (i)就等价于 ⟨ x , y ⟩ = g ( y ) + g ∗ ( x ) , \langle\mathbf{x,y}\rangle=g(\mathbf{y})+g^*(\mathbf{x}), x,y=g(y)+g(x),这里 g = f ∗ g=f^* g=f. 类似地, (i)就等价于 x ∈ ∂ g ( y ) = ∂ f ∗ ( y ) \mathbf{x}\in\partial g(\mathbf{y})=\partial f^*(\mathbf{y}) xg(y)=f(y). 证毕.

根据共轭函数的定义, 定理12的(i)可以写成 x ∈ arg ⁡ max ⁡ x ~ ∈ E { ⟨ y , x ~ ⟩ − f ( x ~ ) } , \mathbf{x}\in\arg\max_{\tilde\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{y,\tilde x}\rangle-f(\tilde\mathbf{x})\}, xargx~Emax{y,x~f(x~)},而当 f f f是闭函数时, 也可写成 y ∈ arg ⁡ max ⁡ y ~ ∈ E ∗ { ⟨ x , y ~ ⟩ − f ∗ ( y ~ ) } . \mathbf{y}\in\arg\max_{\tilde\mathbf{y}\in\mathbb{E}^*}\{\langle\mathbf{x,\tilde y}\rangle-f^*(\tilde\mathbf{y})\}. yargy~Emax{x,y~f(y~)}.于此, 共轭次梯度定理就可以等价地表述为如下形式.

推论2 (共轭次梯度定理——第二形式) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为一正常闭凸函数. 于是对 ∀ x ∈ E ,   y ∈ E ∗ \forall\mathbf{x}\in\mathbb{E},\,\mathbf{y}\in\mathbb{E}^* xE,yE, ∂ f ( x ) = arg ⁡ max ⁡ y ~ ∈ E ∗ { ⟨ x , y ~ ⟩ − f ∗ ( y ~ ) } , ∂ f ∗ ( y ) = arg ⁡ max ⁡ x ~ ∈ E { ⟨ y , x ~ ⟩ − f ( x ~ ) } . \begin{aligned}\partial f(\mathbf{x})&=\arg\max_{\tilde\mathbf{y}\in\mathbb{E}^*}\{\langle\mathbf{x,\tilde y}\rangle-f^*(\tilde\mathbf{y})\},\\\partial f^*(\mathbf{y})&=\arg\max_{\tilde\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{y,\tilde x}\rangle-f(\tilde\mathbf{x})\}.\end{aligned} f(x)f(y)=argy~Emax{x,y~f(y~)},=argx~Emax{y,x~f(x~)}.
特别地, 对于任一正常闭凸函数 f f f, ∂ f ( 0 ) = arg ⁡ min ⁡ y ∈ E ∗ f ∗ ( y ) , ∂ f ∗ ( 0 ) = arg ⁡ min ⁡ x ∈ E f ( x ) . \begin{aligned}\partial f(\mathbf{0})&=\arg\min_{\mathbf{y}\in\mathbb{E}^*}f^*(\mathbf{y}),\\\partial f^*(\mathbf{0})&=\arg\min_{\mathbf{x}\in\mathbb{E}}f(\mathbf{x}).\end{aligned} f(0)f(0)=argyEminf(y),=argxEminf(x).

例6 f : E → E f:\mathbb{E}\to\mathbb{E} f:EE定义为 f ( x ) = ∥ x ∥ f(\mathbf{x})=\Vert\mathbf{x}\Vert f(x)=x. 由第二章例12, f = σ B ∥ ⋅ ∥ ∗ [ 0 , 1 ] f=\sigma_{B_{\Vert\cdot\Vert_*}[\mathbf{0},1]} f=σB[0,1]. 再由例3, f ∗ = δ B ∥ ⋅ ∥ ∗ [ 0 , 1 ] f^*=\delta_{B_{\Vert\cdot\Vert_*}[\mathbf{0},1]} f=δB[0,1]. 根据共轭次梯度定理, ∂ f ( 0 ) = arg ⁡ min ⁡ y ∈ E ∗ f ∗ ( y ) = arg ⁡ min ⁡ y ∈ E ∗ δ B ∥ ⋅ ∥ ∗ [ 0 , 1 ] = B ∥ ⋅ ∥ ∗ [ 0 , 1 ] . \partial f(\mathbf{0})=\arg\min_{\mathbf{y}\in\mathbb{E}^*}f^*(\mathbf{y})=\arg\min_{\mathbf{y}\in\mathbb{E}^*}\delta_{B_{\Vert\cdot\Vert_*}[\mathbf{0},1]}=B_{\Vert\cdot\Vert_*}[\mathbf{0},1]. f(0)=argyEminf(y)=argyEminδB[0,1]=B[0,1].这与第三章例1的结论是吻合的.

第三章的定理23中, 我们讨论了函数的Lipschitz连续性与其在一给定集合上次梯度的一致有界性的关系. 这里我们将说明: 函数在全空间上的Lipschitz连续性等价于其共轭函数有效域的有界性.

定理13 (Lipschitz连续性与共轭函数有效域的有界性) 设 f : E → R f:\mathbb{E}\to\mathbb{R} f:ER是凸函数. 于是存在常数 L > 0 L>0 L>0, 使得下面三件事等价:
(i) ∣ f ( x ) − f ( y ) ∣ ≤ L ∥ x − y ∥ ,   ∀ x , y ∈ E |f(\mathbf{x})-f(\mathbf{y})|\le L\Vert\mathbf{x-y}\Vert,\,\forall\mathbf{x,y}\in\mathbb{E} f(x)f(y)Lxy,x,yE.
(ii) ∥ g ∥ ∗ ≤ L ,   ∀ g ∈ ∂ f ( x ) ,   x ∈ E \Vert\mathbf{g}\Vert_*\le L,\,\forall\mathbf{g}\in\partial f(\mathbf{x}),\,\mathbf{x}\in\mathbb{E} gL,gf(x),xE.
(iii) d o m ( f ∗ ) ⊂ B ∥ ⋅ ∥ ∗ [ 0 , L ] \mathrm{dom}(f^*)\subset B_{\Vert\cdot\Vert_*}[\mathbf{0},L] dom(f)B[0,L].

证明: (i)和(ii)的等价性可直接从第三章的定理23得到. 现假设(iii)成立. 注意 f f f是定义在全空间上的实值凸函数, 从而使闭函数. 由共轭次梯度定理, 对 ∀ x ∈ E \forall\mathbf{x}\in\mathbb{E} xE, ∂ f ( x ) = arg ⁡ max ⁡ y ∈ E ∗ { ⟨ x , y ⟩ − f ∗ ( y ) } , \partial f(\mathbf{x})=\arg\max_{\mathbf{y}\in\mathbb{E}^*}\{\langle\mathbf{x,y}\rangle-f^*(\mathbf{y})\}, f(x)=argyEmax{x,yf(y)},因此 ∂ f ( x ) ⊂ d o m ( f ∗ ) \partial f(\mathbf{x})\subset\mathrm{dom}(f^*) f(x)dom(f), 从而(ii)成立. 我们再证明(i)可推(iii). 假设(i)成立. 于是特别有 f ( x ) − f ( 0 ) ≤ ∣ f ( x ) − f ( 0 ) ∣ ≤ L ∥ x ∥ , f(\mathbf{x})-f(\mathbf{0})\le|f(\mathbf{x})-f(\mathbf{0})|\le L\Vert\mathbf{x}\Vert, f(x)f(0)f(x)f(0)Lx,因此 − f ( x ) ≥ − f ( 0 ) − L ∥ x ∥ . -f(\mathbf{x})\ge-f(\mathbf{0})-L\Vert\mathbf{x}\Vert. f(x)f(0)Lx.于是对 ∀ y ∈ E ∗ \forall\mathbf{y}\in\mathbb{E}^* yE, f ∗ ( y ) = max ⁡ x ∈ E { ⟨ x , y ⟩ − f ( x ) } ≥ max ⁡ x ∈ E { ⟨ x , y ⟩ − f ( 0 ) − L ∥ x ∥ } . f^*(\mathbf{y})=\max_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{x,y}\rangle-f(\mathbf{x})\}\ge\max_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{x,y}\rangle-f(\mathbf{0})-L\Vert\mathbf{x}\Vert\}. f(y)=xEmax{x,yf(x)}xEmax{x,yf(0)Lx}.现取 y ~ ∈ E ∗ : ∥ y ~ ∥ ∗ > L \tilde\mathbf{y}\in\mathbb{E}^*:\Vert\tilde\mathbf{y}\Vert_*>L y~E:y~>L. 我们要证明 y ~ ∉ d o m ( f ∗ ) \tilde\mathbf{y}\notin\mathrm{dom}(f^*) y~/dom(f). 令 y † ∈ E : ∥ y † ∥ = 1 ,   ⟨ y ~ , y † ⟩ = ∥ y ~ ∥ ∗ \mathbf{y}^{\dagger}\in\mathbb{E}:\Vert\mathbf{y}^{\dagger}\Vert=1,\,\langle\tilde\mathbf{y},\mathbf{y}^{\dagger}\rangle=\Vert\tilde\mathbf{y}\Vert_* yE:y=1,y~,y=y~. 令 C = { α y † : α ≥ 0 } ⊂ E C=\{\alpha\mathbf{y}^{\dagger}:\alpha\ge0\}\subset\mathbb{E} C={αy:α0}E. 于是 f ∗ ( y ~ ) ≥ max ⁡ x ∈ E { ⟨ x , y ~ ⟩ − f ( 0 ) − L ∥ x ∥ } ≥ max ⁡ x ∈ C { ⟨ x , y ~ ⟩ − f ( 0 ) − L ∥ x ∥ } = max ⁡ α ≥ 0 { ⟨ α y ~ , y † ⟩ − f ( 0 ) − L α ∥ y † ∥ } = max ⁡ α ≥ 0 { α ∥ y ~ ∥ ∗ − f ( 0 ) − L α } = max ⁡ α ≥ 0 { α ( ∥ y ~ ∥ ∗ − L ) − f ( 0 ) } = ∥ y ~ ∥ ∗ > L ∞ , \begin{aligned}f^*(\tilde\mathbf{y})&\ge\max_{\mathbf{x}\in\mathbb{E}}\{\langle\mathbf{x,\tilde y}\rangle-f(\mathbf{0})-L\Vert\mathbf{x}\Vert\}\\&\ge\max_{\mathbf{x}\in C}\{\langle\mathbf{x,\tilde y}\rangle-f(\mathbf{0})-L\Vert\mathbf{x}\Vert\}\\&=\max_{\alpha\ge0}\{\langle\alpha\tilde\mathbf{y},\mathbf{y}^{\dagger}\rangle-f(\mathbf{0})-L\alpha\Vert\mathbf{y}^{\dagger}\Vert\}\\&=\max_{\alpha\ge0}\{\alpha\Vert\tilde\mathbf{y}\Vert_*-f(\mathbf{0})-L\alpha\}\\&=\max_{\alpha\ge0}\{\alpha(\Vert\tilde\mathbf{y}\Vert_*-L)-f(\mathbf{0})\}\\&\overset{\Vert\tilde\mathbf{y}\Vert_*>L}{=}\infty,\end{aligned} f(y~)xEmax{x,y~f(0)Lx}xCmax{x,y~f(0)Lx}=α0max{αy~,yf(0)Lαy}=α0max{αy~f(0)Lα}=α0max{α(y~L)f(0)}=y~>L,因此 y ~ ∉ d o m ( f ∗ ) \tilde\mathbf{y}\notin\mathrm{dom}(f^*) y~/dom(f). 证毕.


  1. 这里的 α \alpha α不再能简单提到运算符的外面. ↩︎

  2. 从这个例子我们知道, 当 0 < p < 1 0<p<1 0<p<1时, Young不等式的符号要反过来. ↩︎

  3. 这里无需担心取不同的解会导致不同结果的问题, 这由凹函数的性质所保证. 事实上也可直接验证, 这需要用到 y − b ∈ R a n g e ( A ) \mathbf{y-b}\in\mathrm{Range}(\mathbf{A}) ybRange(A)的前提. ↩︎

  4. 可参考Moore-Penrose伪逆. ↩︎

  5. 证明可见R.Tyrrell Rockafellar的专著《Convex Analysis》的第327页定理31.1. ↩︎

  • 3
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值