First Order Methods in Optimization Ch7. Spectral Functions

第七章: 谱函数


本章我们讨论所谓的 谱函数. 它们是矩阵函数, 只依赖于矩阵的奇异值或特征值. 本章的讨论均在欧式空间下进行.

1. 对称函数

1.1 定义与例子

定义1 (对称函数) 设 A ⊂ O n \mathcal{A}\subset\mathbb{O}^n AOn为一些正交阵构成的集合. 我们称正常函数 f : R n → ( − ∞ , ∞ ] f:\mathbb{R}^n\to(-\infty,\infty] f:Rn(,] A \mathcal{A} A是对称函数, 若 f ( A x ) = f ( x ) , ∀ x ∈ R n ,   A ∈ A . f(\mathbf{Ax})=f(\mathbf{x}),\quad\forall\mathbf{x}\in\mathbb{R}^n,\,\mathbf{A}\in\mathcal{A}. f(Ax)=f(x),xRn,AA.
下面给出五类对称函数. 它们都与 A \mathcal{A} A的选择有关.

例1 (偶函数) 若 A = { − I } \mathcal{A}=\{-\mathbf{I}\} A={I}, 则 f : R n → ( − ∞ , ∞ ] f:\mathbb{R}^n\to(-\infty,\infty] f:Rn(,] A \mathcal{A} A是对称函数, 若 f ( x ) = f ( − x ) , ∀ x ∈ R n . f(\mathbf{x})=f(-\mathbf{x}),\quad\forall\mathbf{x}\in\mathbb{R}^n. f(x)=f(x),xRn.我们称这样的函数为偶函数.

例2 (绝对对称函数) 令 A = { D 1 , D 2 , … , D n } ⊂ R n × n \mathcal{A}=\{\mathbf{D}_1,\mathbf{D}_2,\ldots,\mathbf{D}_n\}\subset\mathbb{R}^{n\times n} A={D1,D2,,Dn}Rn×n, 其中 D i \mathbf{D}_i Di是除 ( i , i ) (i,i) (i,i)元为-1, 其余对角元全1的对角阵, 则正常函数 f : R n → ( − ∞ , ∞ ] f:\mathbb{R}^n\to(-\infty,\infty] f:Rn(,] A \mathcal{A} A是对称函数, 当且仅当 f ( x ) = f ( ∣ x ∣ ) , ∀ x ∈ R n . f(\mathbf{x})=f(|\mathbf{x}|),\quad\forall\mathbf{x}\in\mathbb{R}^n. f(x)=f(x),xRn.我们称这样的函数为绝对对称函数. 易证 f f f是绝对对称函数当且仅当存在函数 g : R + n → ( − ∞ , ∞ ] g:\mathbb{R}_+^n\to(-\infty,\infty] g:R+n(,], 使得 f ( x ) = g ( ∣ x ∣ ) ,   ∀ x ∈ R n f(\mathbf{x})=g(|\mathbf{x}|),\,\forall\mathbf{x}\in\mathbb{R}^n f(x)=g(x),xRn. 事实上, g g g可以取为 f f f R + n \mathbb{R}_+^n R+n上的限制.

例3 (范数依赖函数) 由定义, 正常函数 f : R n → ( − ∞ , ∞ ] f:\mathbb{R}^n\to(-\infty,\infty] f:Rn(,] A = O n \mathcal{A}=\mathbb{O}^n A=On是对称函数当且仅当 f ( x ) = f ( U x ) , ∀ x ∈ R n ,   U ∈ O n . f(\mathbf{x})=f(\mathbf{Ux}),\quad\forall\mathbf{x}\in\mathbb{R}^n,\,\mathbf{U}\in\mathbb{O}^n. f(x)=f(Ux),xRn,UOn.上式成立当且仅当存在正常函数 g : R + → ( − ∞ , ∞ ] g:\mathbb{R}_+\to(-\infty,\infty] g:R+(,]使得 f ( x ) = g ( ∥ x ∥ 2 ) , ∀ x ∈ R n . f(\mathbf{x})=g(\Vert\mathbf{x}\Vert_2),\quad\forall\mathbf{x}\in\mathbb{R}^n. f(x)=g(x2),xRn.事实上, 可以定义 g : t ↦ f ( x ) g:t\mapsto f(\mathbf{x}) g:tf(x), 其中 x \mathbf{x} x是满足 ∥ x ∥ 2 = t \Vert\mathbf{x}\Vert_2=t x2=t的任一 R n \mathbb{R}^n Rn中的向量.

在给出接下来的两个例子之前, 我们需要做一些额外的记号说明. 对一给定向量 x ∈ R n \mathbf{x}\in\mathbb{R}^n xRn, 我们记它经过降序重排后得到的向量为 x ↓ \mathbf{x}^{\downarrow} x. 例如, 若 x = ( 2 , − 9 , 2 , 10 ) T \mathbf{x}=(2,-9,2,10)^T x=(2,9,2,10)T, 则 x ↓ = ( 10 , 2 , 2 , − 9 ) T \mathbf{x}^{\downarrow}=(10,2,2,-9)^T x=(10,2,2,9)T.

定义2 (排列矩阵) 我们称 n × n n\times n n×n矩阵为排列矩阵, 若其元素只可能是0或1, 且每行每列有且仅有一个非零元. 所有 n × n n\times n n×n排列矩阵构成的集合记为 Λ n \Lambda_n Λn.

定义3 (广义排列矩阵) 我们称 n × n n\times n n×n矩阵为广义排列矩阵, 若其元素只可能是0,1或-1, 且每行每列有且仅有一个非零元. 所有 n × n n\times n n×n广义排列矩阵构成的集合记为 Λ n G \Lambda_n^G ΛnG.

例如 ( 0 1 0 1 0 0 0 0 1 ) ∈ Λ 3 , ( 0 − 1 0 1 0 0 0 0 − 1 ) ∈ Λ 3 G . \begin{pmatrix}0 & 1 & 0\\1 & 0 & 0\\0 & 0 & 1\end{pmatrix}\in\Lambda_3,\quad\begin{pmatrix}0 & -1 & 0\\1 & 0 & 0\\0 & 0 & -1\end{pmatrix}\in\Lambda_3^G. 010100001Λ3,010100001Λ3G.由排列矩阵和广义排列矩阵的定义, 已知对 ∀ x ∈ R n \forall\mathbf{x}\in\mathbb{R}^n xRn, 存在排列矩阵 P ∈ Λ n \mathbf{P}\in\Lambda_n PΛn, 使得 P x = x ↓ \mathbf{Px}=\mathbf{x}^{\downarrow} Px=x; 存在广义排列矩阵 Q ∈ Λ n G \mathbf{Q}\in\Lambda_n^G QΛnG, 使得 Q x = ∣ x ∣ ↓ \mathbf{Qx}=|\mathbf{x}|^{\downarrow} Qx=x. 容易验证 Λ n , Λ n G ⊂ O n \Lambda_n,\Lambda_n^G\subset\mathbb{O}^n Λn,ΛnGOn. 因此, 它们可以作为对称函数定义中 A \mathcal{A} A的选择.

例4 (排列对称函数) 正常函数 f : R n → ( − ∞ , ∞ ] f:\mathbb{R}^n\to(-\infty,\infty] f:Rn(,] Λ n \Lambda_n Λn是对称函数, 当且仅当 f ( x ) = f ( P x ) , ∀ x ∈ R n ,   P ∈ Λ n . f(\mathbf{x})=f(\mathbf{Px}),\quad\forall\mathbf{x}\in\mathbb{R}^n,\,\mathbf{P}\in\Lambda_n. f(x)=f(Px),xRn,PΛn.我们称这样的函数为排列对称函数. 易证 f f f是排列对称函数当且仅当 f ( x ) = f ( x ↓ ) , ∀ x ∈ R n . f(\mathbf{x})=f(\mathbf{x}^{\downarrow}),\quad\forall\mathbf{x}\in\mathbb{R}^n. f(x)=f(x),xRn.

例5 (绝对排列对称函数) 正常函数 f : R n → ( − ∞ , ∞ ] f:\mathbb{R}^n\to(-\infty,\infty] f:Rn(,] Λ n G \Lambda_n^G ΛnG是对称函数, 当且仅当 f ( x ) = f ( P x ) , ∀ x ∈ R n ,   P ∈ Λ n G . f(\mathbf{x})=f(\mathbf{Px}),\quad\forall\mathbf{x}\in\mathbb{R}^n,\,\mathbf{P}\in\Lambda_n^G. f(x)=f(Px),xRn,PΛnG.我们称这样的函数为绝对排列对称函数. 易证 f f f是绝对排列对称函数当且仅当 f ( x ) = f ( ∣ x ∣ ↓ ) , ∀ x ∈ R n . f(\mathbf{x})=f\left(|\mathbf{x}|^{\downarrow}\right),\quad\forall\mathbf{x}\in\mathbb{R}^n. f(x)=f(x),xRn.

1.2 对称共轭定理

下面我们将说明, 对某一正交阵集合, 对称函数的共轭仍然是对同一矩阵集合的对称函数.

定理1 (对称共轭定理) 设 f : R n → ( − ∞ , ∞ ] f:\mathbb{R}^n\to(-\infty,\infty] f:Rn(,]是对集合 A ⊂ O n \mathcal{A}\subset\mathbb{O}^n AOn的正常对称函数, 则 f ∗ f^* f A \mathcal{A} A也是对称函数.

证明: 任取 A ∈ A \mathbf{A}\in\mathcal{A} AA. 由对称性假设, h = f h=f h=f, 其中 h ( x ) = f ( A x ) h(\mathbf{x})=f(\mathbf{Ax}) h(x)=f(Ax). 因此, f ∗ ( y ) = h ∗ ( y ) , ∀ y ∈ R n . f^*(\mathbf{y})=h^*(\mathbf{y}),\quad\forall\mathbf{y}\in\mathbb{R}^n. f(y)=h(y),yRn.根据第四章定理6以及 A \mathbf{A} A的正交性, 对 ∀ y ∈ R n \forall\mathbf{y}\in\mathbb{R}^n yRn, 有 h ∗ ( y ) = f ∗ ( ( A T ) − 1 y ) = f ∗ ( A y ) . h^*(\mathbf{y})=f^*\left(\left(\mathbf{A}^T\right)^{-1}\mathbf{y}\right)=f^*(\mathbf{Ay}). h(y)=f((AT)1y)=f(Ay).于是 f ∗ ( y ) = f ∗ ( A y ) , ∀ y ∈ R n . f^*(\mathbf{y})=f^*(\mathbf{Ay}),\quad\forall\mathbf{y}\in\mathbb{R}^n. f(y)=f(Ay),yRn.因为 A \mathbf{A} A是任意的, 所以 f ∗ f^* f A \mathcal{A} A也是对称函数.

例6 本例是将定理1用于第四章4.16节总结的函数.

  • 偶函数
f ( x ) f(\mathbf{x}) f(x) d o m ( f ) \mathrm{dom}(f) dom(f) f ∗ ( y ) f^*(\mathbf{y}) f(y)假设条件参考第四章
1 p a b s ( x ) p \frac{1}{p}\mathrm{abs}(x)^p p1abs(x)p R \mathbb{R} R 1 q a b s ( y ) q \frac{1}{q}\mathrm{abs}(y)^q q1abs(y)q p > 1 ,   1 p + 1 q = 1 p>1,\,\frac{1}{p}+\frac{1}{q}=1 p>1,p1+q1=14.4节
1 2 x T A x + c \frac{1}{2}\mathbf{x}^T\mathbf{Ax}+c 21xTAx+c R n \mathbb{R}^n Rn 1 2 y T A − 1 y − c \frac{1}{2}\mathbf{y}^T\mathbf{A}^{-1}\mathbf{y}-c 21yTA1yc A ∈ S + + n ,   c ∈ R \mathbb{A}\in\mathbb{S}_{++}^n,\,c\in\mathbb{R} AS++n,cR4.6节
  • 排列对称函数
f ( x ) f(\mathbf{x}) f(x) d o m ( f ) \mathrm{dom}(f) dom(f) f ∗ ( y ) f^*(\mathbf{y}) f(y)参考第四章
∑ i = 1 n x i log ⁡ x i \sum_{i=1}^nx_i\log x_i i=1nxilogxi R + n \mathbb{R}_+^n R+n ∑ i = 1 n e y i − 1 \sum_{i=1}^ne^{y_i-1} i=1neyi14.8节
∑ i = 1 n x i log ⁡ x i \sum_{i=1}^nx_i\log x_i i=1nxilogxi Δ n \Delta_n Δn log ⁡ ( ∑ i = 1 n e y i ) \log\left(\sum_{i=1}^ne^{y_i}\right) log(i=1neyi)4.10节
log ⁡ ( ∑ i = 1 n e x i ) \log\left(\sum_{i=1}^ne^{x_i}\right) log(i=1nexi) R n \mathbb{R}^n Rn ∑ i = 1 n y i log ⁡ y i   ( d o m ( f ∗ ) = Δ n ) \sum_{i=1}^ny_i\log y_i\,(\mathrm{dom}(f^*)=\Delta_n) i=1nyilogyi(dom(f)=Δn)4.11节
max ⁡ i { x i } \max_i\{x_i\} maxi{xi} R n \mathbb{R}^n Rn δ Δ n ( y ) \delta_{\Delta_n}(\mathbf{y}) δΔn(y)例4
  • 绝对排列对称函数
f ( x ) f(\mathbf{x}) f(x) d o m ( f ) \mathrm{dom}(f) dom(f) f ∗ ( y ) f^*(\mathbf{y}) f(y)参考第四章
∥ x ∥ p \Vert\mathbf{x}\Vert_p xp R n \mathbb{R}^n Rn δ B ∥ ⋅ ∥ q [ 0 , 1 ] ( y ) \delta_{B_{\Vert\cdot\Vert_q}[\mathbf{0},1]}(\mathbf{y}) δBq[0,1](y)4.12节
1 2 ∥ x ∥ p 2 \frac{1}{2}\Vert\mathbf{x}\Vert_p^2 21xp2 E \mathbb{E} E 1 2 ∥ y ∥ q 2 \frac{1}{2}\Vert\mathbf{y}\Vert_q^2 21yq24.15节

其中 p , q ∈ [ 1 , ∞ ] ,   1 p + 1 q = 1 p,q\in[1,\infty],\,\frac{1}{p}+\frac{1}{q}=1 p,q[1,],p1+q1=1.

  • 范数依赖函数
f ( x ) f(\mathbf{x}) f(x) d o m ( f ) \mathrm{dom}(f) dom(f) f ∗ ( y ) f^*(\mathbf{y}) f(y)参考第四章
∥ x ∥ 2 \Vert\mathbf{x}\Vert_2 x2 R n \mathbb{R}^n Rn δ B ∥ ⋅ ∥ 2 [ 0 , 1 ] ( y ) \delta_{B_{\Vert\cdot\Vert_2}[\mathbf{0},1]}(\mathbf{y}) δB2[0,1](y)4.12节
− α 2 − ∥ x ∥ 2 2   ( α > 0 ) -\sqrt{\alpha^2-\Vert\mathbf{x}\Vert_2^2}\,(\alpha>0) α2x22 (α>0) B ∥ ⋅ ∥ 2 [ 0 , α ] B_{\Vert\cdot\Vert_2}[\mathbf{0},\alpha] B2[0,α] α ∥ y ∥ 2 2 + 1 \alpha\sqrt{\Vert\mathbf{y}\Vert_2^2+1} αy22+1 4.13节
α 2 + ∥ x ∥ 2 2   ( α > 0 ) \sqrt{\alpha^2+\Vert\mathbf{x}\Vert_2^2}\,(\alpha>0) α2+x22 (α>0) R n \mathbb{R}^n Rn − α 1 − ∥ y ∥ 2 2   ( d o m f ∗ = B ∥ ⋅ ∥ 2 [ 0 , 1 ] ) -\alpha\sqrt{1-\Vert\mathbf{y}\Vert_2^2}\,(\mathrm{dom}f^*=B_{\Vert\cdot\Vert_2}[\mathbf{0},1]) α1y22 (domf=B2[0,1])4.14节
1 2 ∥ x ∥ 2 2 \frac{1}{2}\Vert\mathbf{x}\Vert_2^2 21x22 R n \mathbb{R}^n Rn 1 2 ∥ y ∥ 2 2 \frac{1}{2}\Vert\mathbf{y}\Vert_2^2 21y224.15节

2. S n \mathbb{S}^n Sn上的对称谱函数

本章主要考虑的是定义域为 S n \mathbb{S}^n Sn R m × n \mathbb{R}^{m\times n} Rm×n的矩阵函数. 具体说来, 我们只关心那些仅依赖于矩阵特征值(当定义域为 S n \mathbb{S}^n Sn)或奇异值(当定义域为 R m × n \mathbb{R}^{m\times n} Rm×n)的函数. 我们称这样的函数为谱函数.

我们先考虑定义在 S n \mathbb{S}^n Sn上的函数. 给定矩阵 X ∈ S n \mathbf{X}\in\mathbb{S}^n XSn, 记其特征值有降序排列 λ 1 ( X ) ≥ λ 2 ( X ) ≥ ⋯ ≥ λ n ( X ) . \lambda_1(\mathbf{X})\ge\lambda_2(\mathbf{X})\ge\cdots\ge\lambda_n(\mathbf{X}). λ1(X)λ2(X)λn(X).定义特征值函数 λ : S n → R n \bm{\lambda}:\mathbb{S}^n\to\mathbb{R}^n λ:SnRn λ ( X ) = ( λ 1 ( X ) , λ 2 ( X ) , … , λ n ( X ) ) T . \bm{\lambda}(\mathbf{X})=\left(\lambda_1(\mathbf{X}),\lambda_2(\mathbf{X}),\ldots,\lambda_n(\mathbf{X})\right)^T. λ(X)=(λ1(X),λ2(X),,λn(X))T.根据线性代数理论, 任一对称矩阵 X ∈ S n \mathbf{X}\in\mathbb{S}^n XSn都有谱分解, 即存在正交阵 U ∈ O n \mathbf{U}\in\mathbb{O}^n UOn, 使得 X = U d i a g ( λ ( X ) ) U T \mathbf{X}=\mathbf{U}\mathrm{diag}(\bm{\lambda}(\mathbf{X}))\mathbf{U}^T X=Udiag(λ(X))UT.

定义4 ( S n \mathbb{S}^n Sn上的谱函数) 我们称正常函数 g : S n → ( − ∞ , ∞ ] g:\mathbb{S}^n\to(-\infty,\infty] g:Sn(,] S n \mathbb{S}^n Sn上的谱函数, 若存在正常函数 f : R n → ( − ∞ , ∞ ] f:\mathbb{R}^n\to(-\infty,\infty] f:Rn(,], 使得 g = f ∘ λ g=f\circ\bm{\lambda} g=fλ. 我们称满足条件的 f f f(不必唯一)为关联函数.

我们主要是要研究那些关联函数是排列对称函数的谱函数.

定义5 ( S n \mathbb{S}^n Sn上的对称谱函数) 我们称正常函数 g : S n → ( − ∞ , ∞ ] g:\mathbb{S}^n\to(-\infty,\infty] g:Sn(,] S n \mathbb{S}^n Sn上的对称谱函数, 若存在正常排列对称函数 f : R n → ( − ∞ , ∞ ] f:\mathbb{R}^n\to(-\infty,\infty] f:Rn(,]使得 g = f ∘ λ g=f\circ\bm{\lambda} g=fλ.

例7 以下是一些排列对称函数以及由它们关联的对称谱函数.

# \# # f ( x ) f(\mathbf{x}) f(x) d o m ( f ) \mathrm{dom}(f) dom(f) f ( λ ( X ) ) f(\bm{\lambda}(\mathbf{X})) f(λ(X)) d o m ( f ∘ λ ) \mathrm{dom}(f\circ\bm{\lambda}) dom(fλ)
1 ∑ i = 1 n x i \sum_{i=1}^nx_i i=1nxi R n \mathbb{R}^n Rn T r ( X ) \mathrm{Tr}(\mathbf{X}) Tr(X) S n \mathbb{S}^n Sn
2 max ⁡ i = 1 , 2 , … , n x i \max\limits_{i=1,2,\ldots,n}x_i i=1,2,,nmaxxi R n \mathbb{R}^n Rn λ max ⁡ ( X ) \lambda_{\max}(\mathbf{X}) λmax(X) S n \mathbb{S}^n Sn
3 α ∥ x ∥ 2   ( α ∈ R ) \alpha\Vert\mathbf{x}\Vert_2\,(\alpha\in\mathbb{R}) αx2(αR) R n \mathbb{R}^n Rn α ∥ X ∥ F \alpha\Vert\mathbf{X}\Vert_F αXF S n \mathbb{S}^n Sn
4 α ∥ x ∥ 2 2   ( α ∈ R ) \alpha\Vert\mathbf{x}\Vert_2^2\,(\alpha\in\mathbb{R}) αx22(αR) R n \mathbb{R}^n Rn α ∥ X ∥ F 2 \alpha\Vert\mathbf{X}\Vert_F^2 αXF2 S n \mathbb{S}^n Sn
5 α ∥ x ∥ ∞   ( α ∈ R ) \alpha\Vert\mathbf{x}\Vert_{\infty}\,(\alpha\in\mathbb{R}) αx(αR) R n \mathbb{R}^n Rn α ∥ X ∥ 2 , 2 \alpha\Vert\mathbf{X}\Vert_{2,2} αX2,2 S n \mathbb{S}^n Sn
6 α ∥ x ∥ 1   ( α ∈ R ) \alpha\Vert\mathbf{x}\Vert_1\,(\alpha\in\mathbb{R}) αx1(αR) R n \mathbb{R}^n Rn α ∥ X ∥ S 1 \alpha\Vert\mathbf{X}\Vert_{S_1} αXS1 S n \mathbb{S}^n Sn
7 − ∑ i = 1 n log ⁡ ( x i ) -\sum_{i=1}^n\log(x_i) i=1nlog(xi) R + + n \mathbb{R}_{++}^n R++n − log ⁡ det ⁡ ( X ) -\log\det(\mathbf{X}) logdet(X) S + + n \mathbb{S}_{++}^n S++n
8 ∑ i = 1 n x i log ⁡ ( x i ) \sum_{i=1}^nx_i\log(x_i) i=1nxilog(xi) R + n \mathbb{R}_+^n R+n ∑ i = 1 n λ i ( X ) log ⁡ ( λ i ( X ) ) \sum_{i=1}^n\lambda_i(\mathbf{X})\log(\lambda_i(\mathbf{X})) i=1nλi(X)log(λi(X)) S + n \mathbb{S}_+^n S+n
9 ∑ i = 1 n x i log ⁡ ( x i ) \sum_{i=1}^nx_i\log(x_i) i=1nxilog(xi) Δ n \Delta_n Δn ∑ i = 1 n λ i ( X ) log ⁡ ( λ i ( X ) ) \sum_{i=1}^n\lambda_i(\mathbf{X})\log(\lambda_i(\mathbf{X})) i=1nλi(X)log(λi(X)) Υ n \Upsilon_n Υn

上表中最后一个函数的有效域是谱面体(spectrahedron): Υ n = { X ∈ S + n : T r ( X ) = 1 } . \Upsilon_n=\{\mathbf{X}\in\mathbb{S}_+^n:\mathrm{Tr}(\mathbf{X})=1\}. Υn={XS+n:Tr(X)=1}.第六个函数使用的范数为Schatten 1 1 1-范数, 它对于对称矩阵的表达式为 ∥ X ∥ S 1 = ∑ i = 1 n ∣ λ i ( X ) ∣ , X ∈ S n . \Vert\mathbf{X}\Vert_{S_1}=\sum_{i=1}^n|\lambda_i(\mathbf{X})|,\quad\mathbf{X}\in\mathbb{S}^n. XS1=i=1nλi(X),XSn.关于Schatten p p p-范数的详细讨论则放在下一节.

在本章的推导过程中, 我们要用到的一个重要的不等式是Fan不等式. 这个不等式给出了两个对称矩阵内积的上界——它们特征值函数向量的内积——且等式成立当且仅当两个矩阵可同时正交对角化1.

定理2 (Fan不等式) 对 ∀ X , Y ∈ S n \forall\mathbf{X,Y}\in\mathbb{S}^n X,YSn, 有 T r ( X Y ) ≤ ⟨ λ ( X ) , λ ( Y ) ⟩ , \mathrm{Tr}(\mathbf{XY})\le\langle\bm{\lambda}(\mathbf{X}),\bm{\lambda}(\mathbf{Y})\rangle, Tr(XY)λ(X),λ(Y),且等式成立当且仅当存在 V ∈ O n \mathbf{V}\in\mathbb{O}^n VOn使得 X = V d i a g ( λ ( X ) ) V T , Y = V d i a g ( λ ( Y ) ) V T . \begin{aligned}\mathbf{X}&=\mathbf{V}\mathrm{diag}(\bm{\lambda}(\mathbf{X}))\mathbf{V}^T,\\\mathbf{Y}&=\mathbf{V}\mathrm{diag}(\bm{\lambda}(\mathbf{Y}))\mathbf{V}^T.\end{aligned} XY=Vdiag(λ(X))VT,=Vdiag(λ(Y))VT.

证明: 我们只证明不等式. 这要用到下面的引理1以及双随机矩阵的Birkhoff-von Neumann定理.

引理1 ∀ x , y ∈ R n ,   U ∈ O n \forall\mathbf{x,y}\in\mathbb{R}^n,\,\mathbf{U}\in\mathbb{O}^n x,yRn,UOn, 定义 α = ⟨ d i a g ( x ) , U T d i a g ( y ) U ⟩ . \alpha=\langle\mathrm{diag}(\mathbf{x}),\mathbf{U}^T\mathrm{diag}(\mathbf{y})\mathbf{U}\rangle. α=diag(x),UTdiag(y)U. α ≤ ( x ↓ ) T y ↓ \alpha\le\left(\mathbf{x}^{\downarrow}\right)^T\mathbf{y}^{\downarrow} α(x)Ty.

证明: 对 ∀ U ∈ O n \forall\mathbf{U}\in\mathbb{O}^n UOn, 首先证明存在某个双随机矩阵 Z \mathbf{Z} Z使得 α = x T Z y \alpha=\mathbf{x}^T\mathbf{Zy} α=xTZy. 令 U = [ u 1 , u 2 , … , u n ] \mathbf{U}=[\mathbf{u}_1,\mathbf{u}_2,\ldots,\mathbf{u}_n] U=[u1,u2,,un]. 则 U d i a g ( x ) = [ x 1 u 1 , x 2 u 2 , … , x n u n ] , d i a g ( y ) U = [ d i a g ( y ) u 1 , d i a g ( y ) u 2 , … , d i a g ( y ) u n ] . \begin{aligned}\mathbf{U}\mathrm{diag}(\mathbf{x})&=[x_1\mathbf{u}_1,x_2\mathbf{u}_2,\ldots,x_n\mathbf{u}_n],\\\mathrm{diag}(\mathbf{y})\mathbf{U}&=\left[\mathrm{diag}(\mathbf{y})\mathbf{u}_1,\mathrm{diag}(\mathbf{y})\mathbf{u}_2,\ldots,\mathrm{diag}(\mathbf{y})\mathbf{u}_n\right].\end{aligned} Udiag(x)diag(y)U=[x1u1,x2u2,,xnun],=[diag(y)u1,diag(y)u2,,diag(y)un].于是 α = T r ( ( U d i a g ( x ) ) T d i a g ( y ) U ) = T r [ [ x 1 u 1 T x 2 u 2 T ⋮ x n u n T ] [ d i a g ( y ) u 1 d i a g ( y ) u 2 ⋯ d i a g ( y ) u n ] ] = ∑ i = 1 n x i u i T d i a g ( y ) u i = ∑ i , j = 1 n x i y j u j i 2 = x T Z y , \begin{aligned}\alpha&=\mathrm{Tr}\left(\left(\mathbf{U}\mathrm{diag}(\mathbf{x})\right)^T\mathrm{diag}(\mathbf{y})\mathbf{U}\right)\\&=\mathrm{Tr}\left[\begin{bmatrix}x_1\mathbf{u}_1^T\\x_2\mathbf{u}_2^T\\\vdots\\x_n\mathbf{u}_n^T\end{bmatrix}\begin{bmatrix}\mathrm{diag}(\mathbf{y})\mathbf{u}_1 & \mathrm{diag}(\mathbf{y})\mathbf{u}_2 & \cdots & \mathrm{diag}(\mathbf{y})\mathbf{u_n}\end{bmatrix}\right]\\&=\sum_{i=1}^nx_i\mathbf{u}_i^T\mathrm{diag}(\mathbf{y})\mathbf{u}_i\\&=\sum_{i,j=1}^nx_iy_ju_{ji}^2=\mathbf{x}^T\mathbf{Zy},\end{aligned} α=Tr((Udiag(x))Tdiag(y)U)=Trx1u1Tx2u2TxnunT[diag(y)u1diag(y)u2diag(y)un]=i=1nxiuiTdiag(y)ui=i,j=1nxiyjuji2=xTZy,其中 z i j = u j i 2 z_{ij}=u_{ji}^2 zij=uji2. 由于 U ∈ O n \mathbf{U}\in\mathbb{O}^n UOn, 所以 Z \mathbf{Z} Z中每个元素均非负, 且每行每列元素之和为1. 所以 Z \mathbf{Z} Z是个双随机矩阵. 由Birkhoff-von Neumann定理, 它是 n n n阶排列阵全体的凸组合, 即 Z = ∑ i = 1 n ! λ i P i , ∑ i = 1 n ! λ i = 1. \mathbf{Z}=\sum_{i=1}^{n!}\lambda_i\mathbf{P}_i,\quad\sum_{i=1}^{n!}\lambda_i=1. Z=i=1n!λiPi,i=1n!λi=1.因此 α = x T Z y = ∑ i = 1 n ! λ i x T P i y ≤ 排 序 不 等 式 ∑ i = 1 n λ i ( x ↓ ) T y ↓ = ( x ↓ ) T y ↓ . \begin{aligned}\alpha&=\mathbf{x}^T\mathbf{Zy}\\&=\sum_{i=1}^{n!}\lambda_i\mathbf{x}^T\mathbf{P}_i\mathbf{y}\\&\overset{排序不等式}{\le}\sum_{i=1}^n\lambda_i\left(\mathbf{x}^{\downarrow}\right)^T\mathbf{y}^{\downarrow}=\left(\mathbf{x}^{\downarrow}\right)^T\mathbf{y}^{\downarrow}.\end{aligned} α=xTZy=i=1n!λixTPiyi=1nλi(x)Ty=(x)Ty.

现假设 X , Y \mathbf{X,Y} X,Y分别有正交相似对角化: 存在 P , Q ∈ O n \mathbf{P,Q}\in\mathbb{O}^n P,QOn, 使得 X = P d i a g ( λ ( X ) ) P T , Y = Q d i a g ( λ ( Y ) ) Q T . \begin{aligned}\mathbf{X}&=\mathbf{P}\mathrm{diag}(\bm{\lambda}(\mathbf{X}))\mathbf{P}^T,\\\mathbf{Y}&=\mathbf{Q}\mathrm{diag}(\bm{\lambda}(\mathbf{Y}))\mathbf{Q}^T.\end{aligned} XY=Pdiag(λ(X))PT,=Qdiag(λ(Y))QT.因此 T r ( X Y ) = T r ( P d i a g ( λ ( X ) ) P T Q d i a g ( λ ( Y ) ) Q T ) = T r ( d i a g ( λ ( X ) ) P T Q d i a g ( λ ( Y ) ) Q T P ) = T r ( d i a g ( λ ( X ) ) R T d i a g ( λ ( Y ) ) R )   ( R = Q T P ∈ O n ) = ⟨ d i a g ( λ ( X ) ) , R T d i a g ( λ ( Y ) ) R ⟩ ≤ ⟨ λ ( X ) , λ ( Y ) ⟩ . \begin{aligned}\mathrm{Tr}(\mathbf{XY})&=\mathrm{Tr}\left(\mathbf{P}\mathrm{diag}(\bm{\lambda}(\mathbf{X}))\mathbf{P}^T\mathbf{Q}\mathrm{diag}(\bm{\lambda}(\mathbf{Y}))\mathbf{Q}^T\right)\\&=\mathrm{Tr}\left(\mathrm{diag}(\bm{\lambda}(\mathbf{X}))\mathbf{P}^T\mathbf{Q}\mathrm{diag}(\bm{\lambda}(\mathbf{Y}))\mathbf{Q}^T\mathbf{P}\right)\\&=\mathrm{Tr}\left(\mathrm{diag}(\bm{\lambda}(\mathbf{X}))\mathbf{R}^T\mathrm{diag}(\bm{\lambda}(\mathbf{Y}))\mathbf{R}\right)\,(\mathbf{R}=\mathbf{Q}^T\mathbf{P}\in\mathbb{O}^n)\\&=\left\langle\mathrm{diag}(\bm{\lambda}(\mathbf{X})),\mathbf{R}^T\mathrm{diag}(\bm{\lambda}(\mathbf{Y}))\mathbf{R}\right\rangle\\&\le\langle\bm{\lambda}(\mathbf{X}),\bm{\lambda}(\mathbf{Y})\rangle.\end{aligned} Tr(XY)=Tr(Pdiag(λ(X))PTQdiag(λ(Y))QT)=Tr(diag(λ(X))PTQdiag(λ(Y))QTP)=Tr(diag(λ(X))RTdiag(λ(Y))R)(R=QTPOn)=diag(λ(X)),RTdiag(λ(Y))Rλ(X),λ(Y).这里最后一个不等式用到了特征值函数向量本身就是降序排列的.

2.1 谱共轭公式

Fan不等式的一个直接推论就是谱共轭公式. 我们可以用它计算 S n \mathbb{S}^n Sn上对称谱函数的共轭.

定理3 ( S n \mathbb{S}^n Sn上的谱共轭公式) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为排列对称函数. 则 ( f ∘ λ ) ∗ = f ∗ ∘ λ . \left(f\circ\bm{\lambda}\right)^*=f^*\circ\bm{\lambda}. (fλ)=fλ.

证明: 设 Y ∈ S n \mathbf{Y}\in\mathbb{S}^n YSn. 则 ( f ∘ λ ) ∗ ( Y ) = max ⁡ X ∈ S n { T r ( X Y ) − f ( λ ( X ) ) } ≤ max ⁡ X ∈ S n { ⟨ λ ( X ) , λ ( Y ) ⟩ − f ( λ ( X ) ) }   ( Fan 不 等 式 ) ≤ max ⁡ x ∈ R n { ⟨ x , λ ( Y ) ⟩ − f ( x ) } = ( f ∗ ∘ λ ) ( Y ) . \begin{aligned}(f\circ\bm{\lambda})^*(\mathbf{Y})&=\max_{\mathbf{X}\in\mathbb{S}^n}\{\mathrm{Tr}(\mathbf{XY})-f(\bm{\lambda}(\mathbf{X}))\}\\&\le\max_{\mathbf{X}\in\mathbb{S}^n}\{\langle\bm{\lambda}(\mathbf{X}),\bm{\lambda}(\mathbf{Y})\rangle-f(\bm{\lambda}(\mathbf{X}))\}\,(\text{Fan}不等式)\\&\le\max_{\mathbf{x}\in\mathbb{R}^n}\{\langle\mathbf{x},\bm{\lambda}(\mathbf{Y})\rangle-f(\mathbf{x})\}\\&=(f^*\circ\bm{\lambda})(\mathbf{Y}).\end{aligned} (fλ)(Y)=XSnmax{Tr(XY)f(λ(X))}XSnmax{λ(X),λ(Y)f(λ(X))}(Fan)xRnmax{x,λ(Y)f(x)}=(fλ)(Y).下面证明反向不等式. 设 Y \mathbf{Y} Y有谱分解 Y = U d i a g ( λ ( Y ) ) U T   ( U ∈ O n ) . \mathbf{Y}=\mathbf{U}\mathrm{diag}(\bm{\lambda}(\mathbf{Y}))\mathbf{U}^T\,(\mathbf{U}\in\mathbb{O}^n). Y=Udiag(λ(Y))UT(UOn). ( f ∗ ∘ λ ) ( Y ) = max ⁡ x ∈ R n { ⟨ x , λ ( Y ) ⟩ − f ( x ) } = max ⁡ x ∈ R n { T r ( d i a g ( x ) d i a g ( λ ( Y ) ) − f ( x ) } = max ⁡ x ∈ R n { T r ( d i a g ( x ) U T Y U ) − f ( x ↓ ) } = max ⁡ x ∈ R n { T r ( d i a g ( x ) U T Y U ) − f ( λ ( U d i a g ( x ) U T ) ) } = max ⁡ x ∈ R n { T r ( U d i a g ( x ) U T Y ) − f ( λ ( U d i a g ( x ) U T ) ) } ≤ max ⁡ Z ∈ S n { T r ( Z Y ) − f ( λ ( Z ) ) } = ( f ∘ λ ) ∗ ( Y ) . \begin{aligned}(f^*\circ\bm{\lambda})(\mathbf{Y})&=\max_{\mathbf{x}\in\mathbb{R}^n}\{\langle\mathbf{x},\bm{\lambda}(\mathbf{Y})\rangle-f(\mathbf{x})\}\\&=\max_{\mathbf{x}\in\mathbb{R}^n}\{\mathrm{Tr}(\mathrm{diag}(\mathbf{x})\mathrm{diag}(\bm{\lambda}(\mathbf{Y}))-f(\mathbf{x})\}\\&=\max_{\mathbf{x}\in\mathbb{R}^n}\{\mathrm{Tr}(\mathrm{diag}(\mathbf{x})\mathbf{U}^T\mathbf{YU})-f(\mathbf{x}^{\downarrow})\}\\&=\max_{\mathbf{x}\in\mathbb{R}^n}\{\mathrm{Tr}(\mathrm{diag}(\mathbf{x})\mathbf{U}^T\mathbf{YU})-f(\bm{\lambda}(\mathbf{U}\mathrm{diag}(\mathbf{x})\mathbf{U}^T))\}\\&=\max_{\mathbf{x}\in\mathbb{R}^n}\{\mathrm{Tr}(\mathbf{U}\mathrm{diag}(\mathbf{x})\mathbf{U}^T\mathbf{Y})-f(\bm{\lambda}(\mathbf{U}\mathrm{diag}(\mathbf{x})\mathbf{U}^T))\}\\&\le\max_{\mathbf{Z}\in\mathbb{S}^n}\{\mathrm{Tr}(\mathbf{ZY})-f(\bm{\lambda}(\mathbf{Z}))\}\\&=(f\circ\bm{\lambda})^*(\mathbf{Y}).\end{aligned} (fλ)(Y)=xRnmax{x,λ(Y)f(x)}=xRnmax{Tr(diag(x)diag(λ(Y))f(x)}=xRnmax{Tr(diag(x)UTYU)f(x)}=xRnmax{Tr(diag(x)UTYU)f(λ(Udiag(x)UT))}=xRnmax{Tr(Udiag(x)UTY)f(λ(Udiag(x)UT))}ZSnmax{Tr(ZY)f(λ(Z))}=(fλ)(Y).

例8 利用谱共轭公式, 我们就可以计算例7中列出函数的共轭函数.

# \# # g ( X ) g(\mathbf{X}) g(X) d o m ( g ) \mathrm{dom}(g) dom(g) g ∗ ( Y ) g^*(\mathbf{Y}) g(Y) d o m ( g ∗ ) \mathrm{dom}(g^*) dom(g)参考第四章
1 T r ( X ) \mathrm{Tr}(\mathbf{X}) Tr(X) S n \mathbb{S}^n Sn δ { I } ( Y ) \delta_{\{\mathbf{I}\}}(\mathbf{Y}) δ{I}(Y) { I } \{\mathbf{I}\} {I}4.7节
2 λ max ⁡ ( X ) \lambda_{\max}(\mathbf{X}) λmax(X) S n \mathbb{S}^n Sn δ Υ n ( Y ) \delta_{\Upsilon_n}(\mathbf{Y}) δΥn(Y) Υ n \Upsilon_n Υn例4
3 α ∥ X ∥ F   ( α > 0 ) \alpha\Vert\mathbf{X}\Vert_F\,(\alpha>0) αXF(α>0) S n \mathbb{S}^n Sn δ B ∥ ⋅ ∥ F [ 0 , α ] ( Y ) \delta_{B_{\Vert\cdot\Vert_F}[\mathbf{0},\alpha]}(\mathbf{Y}) δBF[0,α](Y) B ∥ ⋅ ∥ F [ 0 , α ] B_{\Vert\cdot\Vert_F}[\mathbf{0},\alpha] BF[0,α]4.12节
4 α ∥ X ∥ F 2   ( α > 0 ) \alpha\Vert\mathbf{X}\Vert_F^2\,(\alpha>0) αXF2(α>0) S n \mathbb{S}^n Sn 1 4 α ∥ Y ∥ F 2 \frac{1}{4\alpha}\Vert\mathbf{Y}\Vert_F^2 4α1YF2 S n \mathbb{S}^n Sn4.6节
5 α ∥ X ∥ 2 , 2   ( α > 0 ) \alpha\Vert\mathbf{X}\Vert_{2,2}\,(\alpha>0) αX2,2(α>0) S n \mathbb{S}^n Sn δ B ∥ ⋅ ∥ S 1 [ 0 , α ] ( Y ) \delta_{B_{\Vert\cdot\Vert_{S_1}}[\mathbf{0},\alpha]}(\mathbf{Y}) δBS1[0,α](Y) B ∥ ⋅ ∥ S 1 [ 0 , α ] B_{\Vert\cdot\Vert_{S_1}}[\mathbf{0},\alpha] BS1[0,α]4.12节
6 α ∥ X ∥ S 1   ( α > 0 ) \alpha\Vert\mathbf{X}\Vert_{S_1}\,(\alpha>0) αXS1(α>0) S n \mathbb{S}^n Sn δ B ∥ ⋅ ∥ 2 , 2 [ 0 , α ] ( Y ) \delta_{B_{\Vert\cdot\Vert_{2,2}}[\mathbf{0},\alpha]}(\mathbf{Y}) δB2,2[0,α](Y) B ∥ ⋅ ∥ 2 , 2 [ 0 , α ] B_{\Vert\cdot\Vert_{2,2}}[\mathbf{0},\alpha] B2,2[0,α]4.12节
7 − log ⁡ det ⁡ ( X ) -\log\det(\mathbf{X}) logdet(X) S + + n \mathbb{S}_{++}^n S++n − n − log ⁡ det ⁡ ( − Y ) -n-\log\det(-\mathbf{Y}) nlogdet(Y) S − − n \mathbb{S}_{--}^n Sn4.9节
8 ∑ i = 1 n λ i ( X ) log ⁡ ( λ i ( X ) ) \sum_{i=1}^n\lambda_i(\mathbf{X})\log(\lambda_i(\mathbf{X})) i=1nλi(X)log(λi(X)) S + n \mathbb{S}_+^n S+n ∑ i = 1 n e λ i ( Y ) − 1 \sum_{i=1}^ne^{\lambda_i(\mathbf{Y})-1} i=1neλi(Y)1 S n \mathbb{S}^n Sn4.8节
9 ∑ i = 1 n λ i ( X ) log ⁡ ( λ i ( X ) ) \sum_{i=1}^n\lambda_i(\mathbf{X})\log(\lambda_i(\mathbf{X})) i=1nλi(X)log(λi(X)) Υ n \Upsilon_n Υn log ⁡ ( ∑ i = 1 n e λ i ( Y ) ) \log\left(\sum_{i=1}^ne^{\lambda_i(\mathbf{Y})}\right) log(i=1neλi(Y)) S n \mathbb{S}^n Sn4.10节

由谱共轭公式, 我们可以推出许多结论. 例如, 对称谱函数是闭凸函数当且仅当其关联函数是闭凸函数.

定理4 ( S n \mathbb{S}^n Sn上的对称谱函数的闭凸性) 设 F : S n → ( − ∞ , ∞ ] F:\mathbb{S}^n\to(-\infty,\infty] F:Sn(,]定义为 F = f ∘ λ F=f\circ\bm{\lambda} F=fλ, 其中 f : R n → ( − ∞ , ∞ ] f:\mathbb{R}^n\to(-\infty,\infty] f:Rn(,]为排列对称正常函数. 则 F F F是闭凸函数当且仅当 f f f是闭凸函数.

证明: 由谱共轭公式, F ∗ = ( f ∘ λ ) ∗ = f ∗ ∘ λ . F^*=(f\circ\bm{\lambda})^*=f^*\circ\bm{\lambda}. F=(fλ)=fλ.再由对称共轭定理, f ∗ f^* f也是排列对称函数. 再次使用谱共轭公式, 我们有 F ∗ ∗ = ( f ∗ ∘ λ ) ∗ = f ∗ ∗ ∘ λ . F^{**}=\left(f^*\circ\bm{\lambda}\right)^*=f^{**}\circ\bm{\lambda}. F=(fλ)=fλ.

  • f f f闭凸, 则根据第四章定理4, f ∗ ∗ = f f^{**}=f f=f. 因此 F ∗ ∗ = f ∘ λ = F . F^{**}=f\circ\bm{\lambda}=F. F=fλ=F.因此 F F F F ∗ F^* F的共轭函数, 从而根据第四章定理1, F F F闭凸.
  • F F F闭凸, 则因为 F F F是正常函数, 所以同样由 F ∗ ∗ = F F^{**}=F F=F. 因此 f ∘ λ = F = F ∗ ∗ = f ∗ ∗ ∘ λ . f\circ\bm{\lambda}=F=F^{**}=f^{**}\circ\bm{\lambda}. fλ=F=F=fλ.于是对 ∀ x ∈ R n \forall\mathbf{x}\in\mathbb{R}^n xRn, f ( x ↓ ) = f ( λ ( d i a g ( x ) ) ) = f ∗ ∗ ( λ ( d i a g ( x ) ) ) = f ∗ ∗ ( x ↓ ) . f(\mathbf{x}^{\downarrow})=f(\bm{\lambda}(\mathrm{diag}(\mathbf{x})))=f^{**}(\bm{\lambda}(\mathrm{diag}(\mathbf{x})))=f^{**}(\mathbf{x}^{\downarrow}). f(x)=f(λ(diag(x)))=f(λ(diag(x)))=f(x).由于 f , f ∗ ∗ f,f^{**} f,f都是排列对称函数, 因此 f ( x ) = f ( x ↓ ) = f ∗ ∗ ( x ↓ ) = f ∗ ∗ ( x ) . f(\mathbf{x})=f(\mathbf{x}^{\downarrow})=f^{**}(\mathbf{x}^{\downarrow})=f^{**}(\mathbf{x}). f(x)=f(x)=f(x)=f(x).从而 f = f ∗ ∗ f=f^{**} f=f. 因此 f f f f ∗ f^* f的共轭函数, f f f闭凸.

2.2 S n \mathbb{S}^n Sn上对称谱函数的临近算子

下面的定理5给出了计算 S n \mathbb{S}^n Sn上正常闭凸谱函数临近算子的公式. 其中要用到矩阵的谱分解以及关联函数的临近算子.

定理5 ( S n \mathbb{S}^n Sn上的谱临近公式) 设 F : S n → ( − ∞ , ∞ ] F:\mathbb{S}^n\to(-\infty,\infty] F:Sn(,] F = f ∘ λ F=f\circ\bm{\lambda} F=fλ, 其中 f : R n → ( − ∞ , ∞ ] f:\mathbb{R}^n\to(-\infty,\infty] f:Rn(,]为排列对称的正常闭凸函数2. 设 X ∈ S n \mathbf{X}\in\mathbb{S}^n XSn, 且有谱分解 X = U d i a g ( λ ( X ) ) U T \mathbf{X}=\mathbf{U}\mathrm{diag}(\bm{\lambda}(\mathbf{X}))\mathbf{U}^T X=Udiag(λ(X))UT, U ∈ O n \mathbf{U}\in\mathbb{O}^n UOn. 则 p r o x F ( X ) = U d i a g ( p r o x f ( λ ( X ) ) ) U T . \mathrm{prox}_F(\mathbf{X})=\mathbf{U}\mathrm{diag}(\mathrm{prox}_f(\bm{\lambda}(\mathbf{X})))\mathbf{U}^T. proxF(X)=Udiag(proxf(λ(X)))UT.

证明: 由定义, p r o x F ( X ) = arg ⁡ min ⁡ Z ∈ S n { F ( Z ) + 1 2 ∥ Z − X ∥ F 2 } . \mathrm{prox}_F(\mathbf{X})=\arg\min_{\mathbf{Z}\in\mathbb{S}^n}\left\{F(\mathbf{Z})+\frac{1}{2}\Vert\mathbf{Z-X}\Vert_F^2\right\}. proxF(X)=argZSnmin{F(Z)+21ZXF2}. D = d i a g ( λ ( X ) ) \mathbf{D}=\mathrm{diag}(\bm{\lambda}(\mathbf{X})) D=diag(λ(X)), 于是对 ∀ Z ∈ S n \forall\mathbf{Z}\in\mathbb{S}^n ZSn, F ( Z ) + 1 2 ∥ Z − X ∥ F 2 = F ( Z ) + 1 2 ∥ Z − U D U T ∥ F 2 = ( ∗ ) F ( U T Z U ) + 1 2 ∥ U T Z U − D ∥ F 2 , F(\mathbf{Z})+\frac{1}{2}\Vert\mathbf{Z-X}\Vert_F^2=F(\mathbf{Z})+\frac{1}{2}\Vert\mathbf{Z}-\mathbf{UDU}^T\Vert_F^2\overset{(*)}{=}F(\mathbf{U}^T\mathbf{ZU})+\frac{1}{2}\Vert\mathbf{U}^T\mathbf{ZU-D}\Vert_F^2, F(Z)+21ZXF2=F(Z)+21ZUDUTF2=()F(UTZU)+21UTZUDF2,其中 ( ∗ ) (*) ()式是因为 F ( Z ) = f ( λ ( Z ) ) = f ( λ ( U T Z U ) ) = F ( U T Z U ) F(\mathbf{Z})=f(\bm{\lambda}(\mathbf{Z}))=f(\bm{\lambda}(\mathbf{U}^T\mathbf{ZU}))=F(\mathbf{U}^T\mathbf{ZU}) F(Z)=f(λ(Z))=f(λ(UTZU))=F(UTZU). 做变量替换 W = U T Z U \mathbf{W}=\mathbf{U}^T\mathbf{ZU} W=UTZU. 则 p r o x F ( X ) = U W ∗ U T \mathrm{prox}_F(\mathbf{X})=\mathbf{UW}^*\mathbf{U}^T proxF(X)=UWUT, 其中 W ∗ ∈ S n \mathbf{W}^*\in\mathbb{S}^n WSn min ⁡ W ∈ S n { G ( W ) ≡ F ( W ) + 1 2 ∥ W − D ∥ F 2 } \min_{\mathbf{W}\in\mathbb{S}^n}\left\{G(\mathbf{W})\equiv F(\mathbf{W})+\frac{1}{2}\Vert\mathbf{W-D}\Vert_F^2\right\} WSnmin{G(W)F(W)+21WDF2}的唯一最优解. 下证 W ∗ \mathbf{W}^* W是对角阵. 取 i ∈ { 1 , 2 , … , n } i\in\{1,2,\ldots,n\} i{1,2,,n}. 令 V i \mathbf{V}_i Vi为仅有 ( i , i ) (i,i) (i,i)元是 − 1 -1 1, 其余对角元全 1 1 1的对角阵. 定义 W ~ i = V i W ∗ V i T \widetilde\mathbf{W}_i=\mathbf{V}_i\mathbf{W}^*\mathbf{V}_i^T W i=ViWViT. 由于 V i ∈ O n \mathbf{V}_i\in\mathbb{O}^n ViOn, F ( V i W ∗ V i T ) = f ( λ ( V i W ∗ V i T ) ) = f ( λ ( W ∗ ) ) = F ( W ∗ ) , F(\mathbf{V}_i\mathbf{W}^*\mathbf{V}_i^T)=f(\bm{\lambda}(\mathbf{V}_i\mathbf{W}^*\mathbf{V}_i^T))=f(\bm{\lambda}(\mathbf{W}^*))=F(\mathbf{W}^*), F(ViWViT)=f(λ(ViWViT))=f(λ(W))=F(W),因此 G ( W ~ i ) = F ( W ~ i ) + 1 2 ∥ W ~ i − D ∥ F 2 = F ( V i W ∗ V i T ) + 1 2 ∥ V i W ∗ V i T − D ∥ F 2 = F ( W ∗ ) + 1 2 ∥ W ∗ − V i T D V i ∥ F 2 = F ( W ∗ ) + 1 2 ∥ W ∗ − D ∥ F 2   ( ∵ V i , D 都 是 对 角 阵 ∴ 二 者 可 交 换 ) = G ( W ∗ ) . \begin{aligned}G(\widetilde\mathbf{W}_i)&=F(\widetilde\mathbf{W}_i)+\frac{1}{2}\left\Vert\widetilde\mathbf{W}_i-\mathbf{D}\right\Vert_F^2\\&=F(\mathbf{V}_i\mathbf{W}^*\mathbf{V}_i^T)+\frac{1}{2}\left\Vert\mathbf{V}_i\mathbf{W}^*\mathbf{V}_i^T-\mathbf{D}\right\Vert_F^2\\&=F(\mathbf{W}^*)+\frac{1}{2}\left\Vert\mathbf{W}^*-\mathbf{V}_i^T\mathbf{DV}_i\right\Vert_F^2\\&=F(\mathbf{W}^*)+\frac{1}{2}\Vert\mathbf{W}^*-\mathbf{D}\Vert_F^2\,(\because\mathbf{V}_i,\mathbf{D}都是对角阵\therefore二者可交换)\\&=G(\mathbf{W}^*).\end{aligned} G(W i)=F(W i)+21W iDF2=F(ViWViT)+21ViWViTDF2=F(W)+21WViTDViF2=F(W)+21WDF2(Vi,D)=G(W).这就表明 W ~ i \widetilde\mathbf{W}_i W i也是最优解. 因此 W ∗ = V i W ∗ V i T \mathbf{W}^*=\mathbf{V}_i\mathbf{W}^*\mathbf{V}_i^T W=ViWViT. 比较两矩阵的第 i i i行, 就有 W i j ∗ = 0 ,   ∀ j ≠ i W_{ij}^*=0,\,\forall j\ne i Wij=0,j=i. 因为这对 ∀ i ∈ { 1 , 2 , … , n } \forall i\in\{1,2,\ldots,n\} i{1,2,,n}均成立, 所以 W ∗ \mathbf{W}^* W是对角阵, 可表示为 W ∗ = d i a g ( w ∗ ) \mathbf{W}^*=\mathrm{diag}(\mathbf{w}^*) W=diag(w), 其中 w ∗ \mathbf{w}^* w min ⁡ w ∈ R n { F ( d i a g ( w ) ) + 1 2 ∥ d i a g ( w ) − D ∥ F 2 } \min_{\mathbf{w}\in\mathbb{R}^n}\left\{F(\mathrm{diag}(\mathbf{w}))+\frac{1}{2}\Vert\mathrm{diag}(\mathbf{w})-\mathbf{D}\Vert_F^2\right\} wRnmin{F(diag(w))+21diag(w)DF2}的最优解. 又 F ( d i a g ( w ) ) = f ( w ↓ ) = f ( w ) ,   ∥ d i a g ( w ) − D ∥ F 2 = ∥ w − λ ( X ) ∥ 2 2 F(\mathrm{diag}(\mathbf{w}))=f(\mathbf{w}^{\downarrow})=f(\mathbf{w}),\,\Vert\mathrm{diag}(\mathbf{w})-\mathbf{D}\Vert_F^2=\Vert\mathbf{w}-\bm{\lambda}(\mathbf{X})\Vert_2^2 F(diag(w))=f(w)=f(w),diag(w)DF2=wλ(X)22, 于是 w ∗ = arg ⁡ min ⁡ w { f ( w ) + 1 2 ∥ w − λ ( X ) ∥ 2 2 } = p r o x f ( λ ( X ) ) . \mathbf{w}^*=\arg\min_{\mathbf{w}}\left\{f(\mathbf{w})+\frac{1}{2}\Vert\mathbf{w}-\bm{\lambda}(\mathbf{X})\Vert_2^2\right\}=\mathrm{prox}_f(\bm{\lambda}(\mathbf{X})). w=argwmin{f(w)+21wλ(X)22}=proxf(λ(X)).所以 W ∗ = d i a g ( p r o x f ( λ ( X ) ) ) \mathbf{W}^*=\mathrm{diag}(\mathrm{prox}_f(\bm{\lambda}(\mathbf{X}))) W=diag(proxf(λ(X))). 代入即得证.

例9 利用谱临近公式, 我们就可以计算对称谱函数的prox. 下表中, α > 0 \alpha>0 α>0, U \mathbf{U} U是满足 X = U d i a g ( λ ( X ) ) U T \mathbf{X}=\mathbf{U}\mathrm{diag}(\bm{\lambda}(\mathbf{X}))\mathbf{U}^T X=Udiag(λ(X))UT的正交阵.

F ( X ) F(\mathbf{X}) F(X) d o m ( F ) \mathrm{dom}(F) dom(F) p r o x F ( X ) \mathrm{prox}_F(\mathbf{X}) proxF(X)参考第六章
α ∥ X ∥ F 2 \alpha\Vert\mathbf{X}\Vert_F^2 αXF2 S n \mathbb{S}^n Sn 1 1 + 2 α X \dfrac{1}{1+2\alpha}\mathbf{X} 1+2α1X2.3节
α ∥ X ∥ F \alpha\Vert\mathbf{X}\Vert_F αXF S n \mathbb{S}^n Sn ( 1 − α max ⁡ { ∥ X ∥ F , α } ) X \left(1-\dfrac{\alpha}{\max\{\Vert\mathbf{X}\Vert_F,\alpha\}}\right)\mathbf{X} (1max{XF,α}α)X例8
α ∥ X ∥ S 1 \alpha\Vert\mathbf{X}\Vert_{S_1} αXS1 S n \mathbb{S}^n Sn U d i a g ( T α ( λ ( X ) ) ) U T \mathbf{U}\mathrm{diag}(\mathcal{T}_{\alpha}(\bm{\lambda}(\mathbf{X})))\mathbf{U}^T Udiag(Tα(λ(X)))UT例2
α ∥ X ∥ 2 , 2 \alpha\Vert\mathbf{X}\Vert_{2,2} αX2,2 S n \mathbb{S}^n Sn U d i a g ( λ ( X ) − α P B ∥ ⋅ ∥ 1 [ 0 , 1 ] ( λ ( X ) / α ) ) U T \mathbf{U}\mathrm{diag}(\bm{\lambda}(\mathbf{X})-\alpha P_{B_{\Vert\cdot\Vert_1}[\mathbf{0},1]}(\bm{\lambda}(\mathbf{X})/\alpha))\mathbf{U}^T Udiag(λ(X)αPB1[0,1](λ(X)/α))UT例20
− α log ⁡ det ⁡ ( X ) -\alpha\log\det(\mathbf{X}) αlogdet(X) S + + n \mathbb{S}_{++}^n S++n U d i a g ( λ j ( X ) + λ j ( X ) 2 + 4 α 2 ) U T \mathbf{U}\mathrm{diag}\left(\dfrac{\lambda_j(\mathbf{X})+\sqrt{\lambda_j(\mathbf{X})^2+4\alpha}}{2}\right)\mathbf{U}^T Udiag(2λj(X)+λj(X)2+4α )UT例3
α λ 1 ( X ) \alpha\lambda_1(\mathbf{X}) αλ1(X) S n \mathbb{S}^n Sn U d i a g ( λ ( X ) − α P Δ n ( λ ( X ) / α ) ) U T \mathbf{U}\mathrm{diag}(\bm{\lambda}(\mathbf{X})-\alpha P_{\Delta_n}(\bm{\lambda}(\mathbf{X})/\alpha))\mathbf{U}^T Udiag(λ(X)αPΔn(λ(X)/α))UT例21
α ∑ i = 1 k λ i ( X ) \alpha\sum_{i=1}^k\lambda_i(\mathbf{X}) αi=1kλi(X) S n \mathbb{S}^n Sn X − α U d i a g ( P C ( λ ( X ) / α ) ) U T ,   C = H e , k ∩ Box [ 0 , e ] \mathbf{X}-\alpha\mathbf{U}\mathrm{diag}(P_C(\bm{\lambda}(\mathbf{X})/\alpha))\mathbf{U}^T,\,C=H_{\mathbf{e},k}\cap\text{Box}[\mathbf{0,e}] XαUdiag(PC(λ(X)/α))UT,C=He,kBox[0,e]例22

我们称 T ⊂ S n T\subset\mathbb{S}^n TSn S n \mathbb{S}^n Sn中的对称谱集, 若其指示函数 δ T \delta_T δT S n \mathbb{S}^n Sn上的对称谱函数, 即 δ T = δ C ∘ λ \delta_T=\delta_C\circ\bm{\lambda} δT=δCλ, 其中 δ C \delta_C δC为排列对称函数. 称 C ⊂ R n C\subset\mathbb{R}^n CRn为关联集合. 因为 p r o x δ T = P T ,   p r o x δ C = P C \mathrm{prox}_{\delta_T}=P_T,\,\mathrm{prox}_{\delta_C}=P_C proxδT=PT,proxδC=PC, 所以由谱共轭公式, 若 C C C非空闭凸, 则 P T ( X ) = U d i a g ( P C ( λ ( X ) ) ) U T , ∀ X = U d i a g ( λ ( X ) ) U T ∈ S n ,   U ∈ O n . P_T(\mathbf{X})=\mathbf{U}\mathrm{diag}(P_C(\bm{\lambda}(\mathbf{X})))\mathbf{U}^T,\quad\forall\mathbf{X}=\mathbf{U}\mathrm{diag}(\bm{\lambda}(\mathbf{X}))\mathbf{U}^T\in\mathbb{S}^n,\,\mathbf{U}\in\mathbb{O}^n. PT(X)=Udiag(PC(λ(X)))UT,X=Udiag(λ(X))UTSn,UOn.

例10 利用上面推导的对称谱集指示函数的prox公式, 我们就可以计算到 S n \mathbb{S}^n Sn中的一些对称谱集上的正交投影. 下表中, U \mathbf{U} U X \mathbf{X} X谱分解中的正交阵.

集合 ( T ) (T) (T) P T ( X ) P_T(\mathbf{X}) PT(X)假设条件参考第六章
S + n \mathbb{S}_+^n S+n U d i a g ( [ λ ( X ) ] + ) U T \mathbf{U}\mathrm{diag}([\bm{\lambda}(\mathbf{X})]_+)\mathbf{U}^T Udiag([λ(X)]+)UT-引理2
{ X : ℓ I ⪯ X ⪯ u I \{\mathbf{X}:\ell\mathbf{I}\preceq\mathbf{X}\preceq u\mathbf{I} {X:IXuI U d i a g ( v ) U T ,   v i = min ⁡ { max ⁡ { λ i ( X ) , ℓ } , u } \mathbf{U}\mathrm{diag}(\mathbf{v})\mathbf{U}^T,\,v_i=\min\{\max\{\lambda_i(\mathbf{X}),\ell\},u\} Udiag(v)UT,vi=min{max{λi(X),},u} ℓ ≤ u \ell\le u u引理2
B ∥ ⋅ ∥ F [ 0 , r ] B_{\Vert\cdot\Vert_F}[\mathbf{0},r] BF[0,r] r max ⁡ { ∥ X ∥ F , r } X \dfrac{r}{\max\{\Vert\mathbf{X}\Vert_F,r\}}\mathbf{X} max{XF,r}rX r > 0 r>0 r>0引理2
{ X : T r ( X ) ≤ b } \{\mathbf{X}:\mathrm{Tr}(\mathbf{X})\le b\} {X:Tr(X)b} U d i a g ( v ) U T ,   v = λ ( X ) − [ e T λ ( X ) − b ] + n e \mathbf{U}\mathrm{diag}(\mathbf{v})\mathbf{U}^T,\,\mathbf{v}=\bm{\lambda}(\mathbf{X})-\dfrac{[\mathbf{e}^T\bm{\lambda}(\mathbf{X})-b]_+}{n}\mathbf{e} Udiag(v)UT,v=λ(X)n[eTλ(X)b]+e b ∈ R b\in\mathbb{R} bR引理2
Υ n \Upsilon_n Υn U d i a g ( v ) U T ,   v = [ λ ( X ) − μ ∗ e ] + \mathbf{U}\mathrm{diag}(\mathbf{v})\mathbf{U}^T,\,\mathbf{v}=[\bm{\lambda}(\mathbf{X})-\mu^*\mathbf{e}]_+ Udiag(v)UT,v=[λ(X)μe]+, 其中 μ ∗ ∈ R \mu^*\in\mathbb{R} μR满足 e T [ λ ( X ) − μ ∗ e ] + = 1 \mathbf{e}^T[\bm{\lambda}(\mathbf{X})-\mu^*\mathbf{e}]_+=1 eT[λ(X)μe]+=1-推论1
B ∥ ⋅ ∥ S 1 [ 0 , α ] B_{\Vert\cdot\Vert_{S_1}}[\mathbf{0},\alpha] BS1[0,α] { X , ∥ X ∥ S 1 ≤ α , U d i a g ( T β ∗ ( λ ( X ) ) ) U T , ∥ X ∥ S 1 > α ,   ∥ T β ∗ ( λ ( X ) ) ∥ 1 = α ,   β ∗ > 0 \left\{\begin{array}{ll}\mathbf{X}, & \Vert\mathbf{X}\Vert_{S_1}\le\alpha,\\\mathbf{U}\mathrm{diag}(\mathcal{T}_{\beta^*}(\bm{\lambda}(\mathbf{X})))\mathbf{U}^T, & \Vert\mathbf{X}\Vert_{S_1}>\alpha,\end{array}\right.\,\Vert\mathcal{T}_{\beta^*}(\bm{\lambda}(\mathbf{X}))\Vert_1=\alpha,\,\beta^*>0 {X,Udiag(Tβ(λ(X)))UT,XS1α,XS1>α,Tβ(λ(X))1=α,β>0 α > 0 \alpha>0 α>0例14

3. R m × n \mathbb{R}^{m\times n} Rm×n上的对称谱函数

m , n m,n m,n为两个正整数, r = min ⁡ { m , n } r=\min\{m,n\} r=min{m,n}. 我们记 σ : R m × n → R r \bm{\sigma}:\mathbb{R}^{m\times n}\to\mathbb{R}^r σ:Rm×nRr为奇异值向量函数, 即将任一个 X ∈ R m × n \mathbf{X}\in\mathbb{R}^{m\times n} XRm×n映射到它的奇异值向量 ( σ 1 ( X ) , σ 2 ( X ) , … , σ r ( X ) ) T (\sigma_1(\mathbf{X}),\sigma_2(\mathbf{X}),\ldots,\sigma_r(\mathbf{X}))^T (σ1(X),σ2(X),,σr(X))T, 其中 σ 1 ( X ) ≥ σ 2 ( X ) ≥ ⋯ ≥ σ r ( X ) ≥ 0 \sigma_1(\mathbf{X})\ge\sigma_2(\mathbf{X})\ge\cdots\ge\sigma_r(\mathbf{X})\ge0 σ1(X)σ2(X)σr(X)0. 对 ∀ v ∈ R r \forall\mathbf{v}\in\mathbb{R}^r vRr, 矩阵 d g ( v ) \mathrm{dg}(\mathbf{v}) dg(v) m × n m\times n m×n矩阵, 其 ( i , j ) (i,j) (i,j)元定义为 d g ( v ) i , j = { v i , i = j , 0 , 其 它 . \mathrm{dg}(\mathbf{v})_{i,j}=\left\{\begin{array}{ll}v_i, & i=j,\\0, & 其它.\end{array}\right. dg(v)i,j={vi,0,i=j,.即算子 d g ( ⋅ ) \mathrm{dg}(\cdot) dg() r r r维向量映射到广义 m × n m\times n m×n对角阵3. 本节中 m , n , r m,n,r m,n,r是固定的. 本节中分析推导的思路与上一节十分类似, 但为了叙述的完整性, 我们仍然会给出所有的证明.

我们首先注意到 ∀ X ∈ R m × n \forall\mathbf{X}\in\mathbb{R}^{m\times n} XRm×n, 都有奇异值分解, 即有 U ∈ O m ,   V ∈ O n \mathbf{U}\in\mathbb{O}^m,\,\mathbf{V}\in\mathbb{O}^n UOm,VOn, 使得 X = U d g ( σ ( X ) ) V T \mathbf{X}=\mathbf{U}\mathrm{dg}(\bm{\sigma}(\mathbf{X}))\mathbf{V}^T X=Udg(σ(X))VT. 下面定义 R m × n \mathbb{R}^{m\times n} Rm×n上的谱函数.

定义6 ( R m × n \mathbb{R}^{m\times n} Rm×n上的谱函数) 我们称正常函数 g : R m × n → ( − ∞ , ∞ ] g:\mathbb{R}^{m\times n}\to(-\infty,\infty] g:Rm×n(,] R m × n \mathbb{R}^{m\times n} Rm×n上的谱函数, 若存在正常函数 f : R r → ( − ∞ , ∞ ] f:\mathbb{R}^r\to(-\infty,\infty] f:Rr(,], 使得 g = f ∘ σ g=f\circ\bm{\sigma} g=fσ.

类似于第2节, 若 g = f ∘ σ g=f\circ\bm{\sigma} g=fσ, 我们就称 f f f(未必唯一)为关联函数. 而我们主要讨论的是关联函数是绝对排列对称函数的谱函数.

定义7 ( R m × n \mathbb{R}^{m\times n} Rm×n上的对称谱函数) 我们称正常函数 f : R m × n → ( − ∞ , ∞ ] f:\mathbb{R}^{m\times n}\to(-\infty,\infty] f:Rm×n(,] R m × n \mathbb{R}^{m\times n} Rm×n上的对称谱函数, 若存在正常绝对排列对称函数 f : R r → ( − ∞ , ∞ ] f:\mathbb{R}^r\to(-\infty,\infty] f:Rr(,], 使得 g = f ∘ σ g=f\circ\bm{\sigma} g=fσ.

例11 (Schatten p p p-范数) 设 p ∈ [ 1 , ∞ ] p\in[1,\infty] p[1,]. 则Schatten p p p-范数4定义为 ∥ X ∥ S p = ∥ σ ( X ) ∥ p , ∀ X ∈ R m × n . \Vert\mathbf{X}\Vert_{S_p}=\Vert\bm{\sigma}(\mathbf{X})\Vert_p,\quad\forall\mathbf{X}\in\mathbb{R}^{m\times n}. XSp=σ(X)p,XRm×n.可以证明, 在 p ∈ [ 1 , ∞ ] p\in[1,\infty] p[1,]时, Schatten p p p-范数确实是一个范数5. p p p取一些特殊值的情形如下:

  • 迹范数 (Schatten 1 1 1-范数) – 也称作核范数(nuclear norm)6: ∥ X ∥ S 1 = ∑ i = 1 r σ i ( X ) . \Vert\mathbf{X}\Vert_{S_1}=\sum_{i=1}^r\sigma_i(\mathbf{X}). XS1=i=1rσi(X).
  • 谱范数 (Schatten ∞ \infty -范数): ∥ X ∥ S ∞ = σ 1 ( X ) = ∥ X ∥ 2 , 2 . \Vert\mathbf{X}\Vert_{S_{\infty}}=\sigma_1(\mathbf{X})=\Vert\mathbf{X}\Vert_{2,2}. XS=σ1(X)=X2,2.
  • Frobenius范数 (Schatten 2 2 2-范数): ∥ X ∥ S 2 = ∑ i = 1 r σ i ( X ) 2 = T r ( X T X ) . \Vert\mathbf{X}\Vert_{S_2}=\sqrt{\sum_{i=1}^r\sigma_i(\mathbf{X})^2}=\sqrt{\mathrm{Tr}(\mathbf{X}^T\mathbf{X})}. XS2=i=1rσi(X)2 =Tr(XTX) .

Schatten p p p-范数是 R m × n \mathbb{R}^{m\times n} Rm×n上的对称谱函数, 其关联函数为 R r \mathbb{R}^r Rr上的 ℓ p \ell_p p-范数. 后者显然是绝对排列对称函数.

例12 (Ky Fan k k k-范数) 记 x ⟨ i ⟩ x_{\langle i\rangle} xi x \mathbf{x} x按模第 i i i大的分量. 函数 f k ( x ) = ∑ i = 1 k ∣ x ⟨ i ⟩ ∣ f_k(\mathbf{x})=\sum_{i=1}^k\left|x_{\langle i\rangle}\right| fk(x)=i=1kxi显然是绝对排列对称函数. 而由它所关联的对称谱函数就是所谓的Ky Fan k k k-范数: ∥ X ∥ ⟨ k ⟩ = f k ( σ ( X ) ) = ∑ i = 1 k σ i ( X ) . \Vert\mathbf{X}\Vert_{\langle k\rangle}=f_k(\bm{\sigma}(\mathbf{X}))=\sum_{i=1}^k\sigma_i(\mathbf{X}). Xk=fk(σ(X))=i=1kσi(X).由定义, ∥ ⋅ ∥ ⟨ 1 ⟩ \Vert\cdot\Vert_{\langle1\rangle} 1是谱范数, 即Schatten ∞ \infty -范数; ∥ ⋅ ∥ ⟨ r ⟩ \Vert\cdot\Vert_{\langle r\rangle} r是迹范数, 也即Schatten 1 1 1-范数. Ky Fan k k k-范数是范数的证明可见这里.

在分析 R m × n \mathbb{R}^{m\times n} Rm×n上的谱函数时常用的一个不等式同样给出了两矩阵内积的上界. 这一上界要用到二者的奇异值向量, 对应了前面的Fan不等式. 这里只叙述, 不证明.

定理6 (von Neumann迹不等式) 对 ∀ X , Y ∈ R m × n \forall\mathbf{X,Y}\in\mathbb{R}^{m\times n} X,YRm×n, 有 ⟨ X , Y ⟩ ≤ ⟨ σ ( X ) , σ ( Y ) ⟩ . \langle\mathbf{X,Y}\rangle\le\langle\bm{\sigma}(\mathbf{X}),\bm{\sigma}(\mathbf{Y})\rangle. X,Yσ(X),σ(Y).等式成立当且仅当 X , Y \mathbf{X,Y} X,Y可同时奇异值分解, 即存在 U ∈ O m ,   V ∈ O n \mathbf{U}\in\mathbb{O}^m,\,\mathbf{V}\in\mathbb{O}^n UOm,VOn, 使得 X = U d i a g ( σ ( X ) ) V T , Y = U d i a g ( σ ( Y ) ) V T . \begin{aligned}\mathbf{X}&=\mathbf{U}\mathrm{diag}(\bm{\sigma}(\mathbf{X}))\mathbf{V}^T,\\\mathbf{Y}&=\mathbf{U}\mathrm{diag}(\bm{\sigma}(\mathbf{Y}))\mathbf{V}^T.\end{aligned} XY=Udiag(σ(X))VT,=Udiag(σ(Y))VT.

3.1 谱共轭公式

类似于 S n \mathbb{S}^n Sn的情形, R m × n \mathbb{R}^{m\times n} Rm×n中也有谱共轭公式.

定理7 ( R m × n \mathbb{R}^{m\times n} Rm×n上的谱共轭公式) 设 f : E → ( − ∞ , ∞ ] f:\mathbb{E}\to(-\infty,\infty] f:E(,]为绝对排列对称函数. 则 ( f ∘ σ ) ∗ = f ∗ ∘ σ . (f\circ\bm{\sigma})^*=f^*\circ\bm{\sigma}. (fσ)=fσ.

证明: 设 Y ∈ R m × n \mathbf{Y}\in\mathbb{R}^{m\times n} YRm×n. 于是 ( f ∘ σ ) ∗ ( Y ) = max ⁡ X ∈ R m × n { T r ( X Y ) − f ( σ ( X ) ) } ≤ max ⁡ X ∈ R m × n { ⟨ σ ( X ) , σ ( Y ) ⟩ − f ( σ ( X ) ) }   ( von Neumann迹不等式 ) ≤ max ⁡ x ∈ R r { ⟨ x , σ ( Y ) ⟩ − f ( x ) } = ( f ∗ ∘ σ ) ( Y ) , \begin{aligned}(f\circ\bm{\sigma})^*(\mathbf{Y})&=\max_{\mathbf{X}\in\mathbb{R}^{m\times n}}\{\mathrm{Tr}(\mathbf{XY})-f(\bm{\sigma}(\mathbf{X}))\}\\&\le\max_{\mathbf{X}\in\mathbb{R}^{m\times n}}\{\langle\bm{\sigma}(\mathbf{X}),\bm{\sigma}(\mathbf{Y})\rangle-f(\bm{\sigma}(\mathbf{X}))\}\,(\text{von Neumann迹不等式})\\&\le\max_{\mathbf{x}\in\mathbb{R}^r}\{\langle\mathbf{x},\bm{\sigma}(\mathbf{Y})\rangle-f(\mathbf{x})\}\\&=(f^*\circ\bm{\sigma})(\mathbf{Y}),\end{aligned} (fσ)(Y)=XRm×nmax{Tr(XY)f(σ(X))}XRm×nmax{σ(X),σ(Y)f(σ(X))}(von Neumann迹不等式)xRrmax{x,σ(Y)f(x)}=(fσ)(Y),反过来, 设 Y \mathbf{Y} Y有奇异值分解 Y = U d g ( σ ( Y ) ) V T   ( U ∈ O m ,   V ∈ O n ) . \mathbf{Y}=\mathbf{U}\mathrm{dg}(\bm{\sigma}(\mathbf{Y}))\mathbf{V}^T\,(\mathbf{U}\in\mathbb{O}^m,\,\mathbf{V}\in\mathbb{O}^n). Y=Udg(σ(Y))VT(UOm,VOn).于是 ( f ∗ ∘ σ ) ( Y ) = max ⁡ x ∈ R r { ⟨ x , σ ( Y ) ⟩ − f ( x ) } = max ⁡ x ∈ R r { T r ( d g ( x ) T d g ( σ ( Y ) ) ) − f ( x ) } = max ⁡ x ∈ R r { T r ( d g ( x ) T U T Y V ) − f ( x ↓ ) } = max ⁡ x ∈ R r { T r ( d g ( x ) T U T Y V ) − f ( σ ( U d g ( x ) V T ) ) } = max ⁡ x ∈ R r { T r ( V d g ( x ) T U T Y ) − f ( σ ( U d g ( x ) V T ) ) } ≤ max ⁡ Z ∈ R m × n { T r ( Z T Y ) − f ( σ ( Z ) ) } = ( f ∘ σ ) ∗ ( Y ) . \begin{aligned}(f^*\circ\bm{\sigma})(\mathbf{Y})&=\max_{\mathbf{x}\in\mathbb{R}^r}\{\langle\mathbf{x},\bm{\sigma}(\mathbf{Y})\rangle-f(\mathbf{x})\}\\&=\max_{\mathbf{x}\in\mathbb{R}^r}\left\{\mathrm{Tr}\left(\mathrm{dg}(\mathbf{x})^T\mathrm{dg}(\bm{\sigma}(\mathbf{Y}))\right)-f(\mathbf{x})\right\}\\&=\max_{\mathbf{x}\in\mathbb{R}^r}\left\{\mathrm{Tr}\left(\mathrm{dg}(\mathbf{x})^T\mathbf{U}^T\mathbf{YV}\right)-f(\mathbf{x}^{\downarrow})\right\}\\&=\max_{\mathbf{x}\in\mathbb{R}^r}\left\{\mathrm{Tr}\left(\mathrm{dg}(\mathbf{x})^T\mathbf{U}^T\mathbf{YV}\right)-f\left(\bm{\sigma}\left(\mathbf{U}\mathrm{dg}(\mathbf{x})\mathbf{V}^T\right)\right)\right\}\\&=\max_{\mathbf{x}\in\mathbb{R}^r}\left\{\mathrm{Tr}\left(\mathbf{V}\mathrm{dg}(\mathbf{x})^T\mathbf{U}^T\mathbf{Y}\right)-f\left(\bm{\sigma}\left(\mathbf{U}\mathrm{dg}(\mathbf{x})\mathbf{V}^T\right)\right)\right\}\\&\le\max_{\mathbf{Z}\in\mathbb{R}^{m\times n}}\left\{\mathrm{Tr}\left(\mathbf{Z}^T\mathbf{Y}\right)-f(\bm{\sigma}(\mathbf{Z}))\right\}\\&=(f\circ\bm{\sigma})^*(\mathbf{Y}).\end{aligned} (fσ)(Y)=xRrmax{x,σ(Y)f(x)}=xRrmax{Tr(dg(x)Tdg(σ(Y)))f(x)}=xRrmax{Tr(dg(x)TUTYV)f(x)}=xRrmax{Tr(dg(x)TUTYV)f(σ(Udg(x)VT))}=xRrmax{Tr(Vdg(x)TUTY)f(σ(Udg(x)VT))}ZRm×nmax{Tr(ZTY)f(σ(Z))}=(fσ)(Y).

例13 利用 R m × n \mathbb{R}^{m\times n} Rm×n上的谱共轭公式, 我们可以推出许多 R m × n \mathbb{R}^{m\times n} Rm×n上对称谱函数的共轭函数表达式. 下表中, α > 0 \alpha>0 α>0

g ( X ) g(\mathbf{X}) g(X) d o m ( g ) \mathrm{dom}(g) dom(g) g ∗ ( Y ) g^*(\mathbf{Y}) g(Y) d o m ( g ∗ ) \mathrm{dom}(g^*) dom(g)参考第四章
α σ 1 ( X )   ( α > 0 ) \alpha\sigma_1(\mathbf{X})\,(\alpha>0) ασ1(X)(α>0) R m × n \mathbb{R}^{m\times n} Rm×n δ B ∥ ⋅ ∥ S 1 [ 0 , α ] ( Y ) \delta_{B_{\Vert\cdot\Vert_{S_1}}[\mathbf{0},\alpha]}(\mathbf{Y}) δBS1[0,α](Y) B ∥ ⋅ ∥ S 1 [ 0 , α ] B_{\Vert\cdot\Vert_{S_1}}[\mathbf{0},\alpha] BS1[0,α]4.12节
α ∥ X ∥ F   ( α > 0 ) \alpha\Vert\mathbf{X}\Vert_F\,(\alpha>0) αXF(α>0) R m × n \mathbb{R}^{m\times n} Rm×n δ B ∥ ⋅ ∥ F [ 0 , α ] ( Y ) \delta_{B_{\Vert\cdot\Vert_F}[\mathbf{0},\alpha]}(\mathbf{Y}) δBF[0,α](Y) B ∥ ⋅ ∥ F [ 0 , α ] B_{\Vert\cdot\Vert_F}[\mathbf{0},\alpha] BF[0,α]4.12节
α ∥ X ∥ F 2   ( α > 0 ) \alpha\Vert\mathbf{X}\Vert_F^2\,(\alpha>0) αXF2(α>0) R m × n \mathbb{R}^{m\times n} Rm×n 1 4 α ∥ Y ∥ F 2 \frac{1}{4\alpha}\Vert\mathbf{Y}\Vert_F^2 4α1YF2 R m × n \mathbb{R}^{m\times n} Rm×n4.6节
α ∥ X ∥ S 1   ( α > 0 ) \alpha\Vert\mathbf{X}\Vert_{S_1}\,(\alpha>0) αXS1(α>0) R m × n \mathbb{R}^{m\times n} Rm×n δ B ∥ ⋅ ∥ ∞ [ 0 , α ] ( Y ) \delta_{B_{\Vert\cdot\Vert_{\infty}}[\mathbf{0},\alpha]}(\mathbf{Y}) δB[0,α](Y) B ∥ ⋅ ∥ ∞ [ 0 , α ] B_{\Vert\cdot\Vert_{\infty}}[\mathbf{0},\alpha] B[0,α]4.12节

由谱共轭公式, 我们可以推出 R m × n \mathbb{R}^{m\times n} Rm×n上的对称谱函数是闭凸函数当且仅当其关联函数是闭凸函数.

定理8 ( R m × n \mathbb{R}^{m\times n} Rm×n上的对称谱函数的闭凸性) 设 F : R m × n → ( − ∞ , ∞ ] F:\mathbb{R}^{m\times n}\to(-\infty,\infty] F:Rm×n(,]定义为 F = f ∘ σ F=f\circ\bm{\sigma} F=fσ, 其中 f : R r → ( − ∞ , ∞ ] f:\mathbb{R}^r\to(-\infty,\infty] f:Rr(,]为绝对排列对称的正常函数. 则 F F F是闭凸函数当且仅当 f f f是闭凸函数.

证明: 由谱共轭公式, F ∗ = ( f ∘ σ ) ∗ = f ∗ ∘ σ . F^*=(f\circ\bm{\sigma})^*=f^*\circ\bm{\sigma}. F=(fσ)=fσ.再由对称共轭定理, f ∗ f^* f也是绝对排列对称函数, 因此再由谱共轭公式, 就有 F ∗ ∗ = ( f ∗ ∘ σ ) ∗ = f ∗ ∗ ∘ σ . F^{**}=(f^*\circ\bm{\sigma})^*=f^{**}\circ\bm{\sigma}. F=(fσ)=fσ.

  • f f f是闭凸函数, 则根据第四章定理1, 就有 f ∗ ∗ = f f^{**}=f f=f. 因此 F ∗ ∗ = f ∘ σ = F . F^{**}=f\circ\bm{\sigma}=F. F=fσ=F.所以 F F F F ∗ F^* F的共轭函数, 于是 F F F是闭凸函数.
  • F F F是闭凸函数, 由于它还是正常函数, 因此也有 F ∗ ∗ = F F^{**}=F F=F. 于是 f ∘ σ = F = F ∗ ∗ = f ∗ ∗ ∘ σ . f\circ\bm{\sigma}=F=F^{**}=f^{**}\circ\bm{\sigma}. fσ=F=F=fσ. ∀ x ∈ R r \forall\mathbf{x}\in\mathbb{R}^r xRr, f ( ∣ x ∣ ↓ ) = f ( σ ( d g ( x ) ) ) = f ∗ ∗ ( σ ( d g ( x ) ) ) = f ∗ ∗ ( ∣ x ∣ ↓ ) . f(|\mathbf{x}|^{\downarrow})=f(\bm{\sigma}(\mathrm{dg}(\mathbf{x})))=f^{**}(\bm{\sigma}(\mathrm{dg}(\mathbf{x})))=f^{**}(|\mathbf{x}|^{\downarrow}). f(x)=f(σ(dg(x)))=f(σ(dg(x)))=f(x).因为 f , f ∗ ∗ f,f^{**} f,f都是绝对排列对称函数, 因此 f ( x ) = f ( ∣ x ∣ ↓ ) = f ∗ ∗ ( ∣ x ∣ ↓ ) = f ∗ ∗ ( x ) , ∀ x ∈ R r . f(\mathbf{x})=f(|\mathbf{x}|^{\downarrow})=f^{**}(|\mathbf{x}|^{\downarrow})=f^{**}(\mathbf{x}),\quad\forall\mathbf{x}\in\mathbb{R}^r. f(x)=f(x)=f(x)=f(x),xRr.所以 f = f ∗ ∗ f=f^{**} f=f, f f f f ∗ f^* f的共轭函数, 是闭凸函数.

3.2 R m × n \mathbb{R}^{m\times n} Rm×n上对称谱函数的临近算子

下面的定理9给出了计算 R m × n \mathbb{R}^{m\times n} Rm×n上正常闭凸谱函数临近算子的公式. 其中要用到矩阵的奇异值分解以及关联函数的临近算子.

定理9 ( R m × n \mathbb{R}^{m\times n} Rm×n上的谱临近公式) 设 F : R m × n → ( − ∞ , ∞ ] F:\mathbb{R}^{m\times n}\to(-\infty,\infty] F:Rm×n(,]定义为 F = f ∘ σ F=f\circ\bm{\sigma} F=fσ, 其中 f : R r → ( − ∞ , ∞ ] f:\mathbb{R}^r\to(-\infty,\infty] f:Rr(,]为绝对排列对称的正常闭凸函数7. 设 X ∈ R m × n \mathbf{X}\in\mathbb{R}^{m\times n} XRm×n有奇异值分解 X = U d g ( σ ( X ) ) V T \mathbf{X}=\mathbf{U}\mathrm{dg}(\bm{\sigma}(\mathbf{X}))\mathbf{V}^T X=Udg(σ(X))VT, 其中 U ∈ O m ,   V ∈ O n \mathbf{U}\in\mathbb{O}^m,\,\mathbf{V}\in\mathbb{O}^n UOm,VOn. 则 p r o x F ( X ) = U d g ( p r o x f ( σ ( X ) ) ) V T . \mathrm{prox}_F(\mathbf{X})=\mathbf{U}\mathrm{dg}(\mathrm{prox}_f(\bm{\sigma}(\mathbf{X})))\mathbf{V}^T. proxF(X)=Udg(proxf(σ(X)))VT.

证明: 由定义 p r o x F ( X ) = arg ⁡ min ⁡ Z ∈ R m × n { F ( Z ) + 1 2 ∥ Z − X ∥ F 2 } . \mathrm{prox}_F(\mathbf{X})=\arg\min_{\mathbf{Z}\in\mathbb{R}^{m\times n}}\left\{F(\mathbf{Z})+\frac{1}{2}\Vert\mathbf{Z-X}\Vert_F^2\right\}. proxF(X)=argZRm×nmin{F(Z)+21ZXF2}. D = d g ( σ ( X ) ) \mathbf{D}=\mathrm{dg}(\bm{\sigma}(\mathbf{X})) D=dg(σ(X)), 于是对 ∀ Z ∈ R m × n \forall\mathbf{Z}\in\mathbb{R}^{m\times n} ZRm×n, F ( Z ) + 1 2 ∥ Z − X ∥ F 2 = F ( Z ) + 1 2 ∥ Z − U D V T ∥ F 2 = ( ∗ ) F ( U T Z V ) + 1 2 ∥ U T Z V − D ∥ F 2 , F(\mathbf{Z})+\frac{1}{2}\Vert\mathbf{Z-X}\Vert_F^2=F(\mathbf{Z})+\frac{1}{2}\Vert\mathbf{Z-UDV}^T\Vert_F^2\overset{(*)}{=}F(\mathbf{U}^T\mathbf{ZV})+\frac{1}{2}\Vert\mathbf{U}^T\mathbf{ZV}-\mathbf{D}\Vert_F^2, F(Z)+21ZXF2=F(Z)+21ZUDVTF2=()F(UTZV)+21UTZVDF2,其中 ( ∗ ) (*) ()式是因为 F ( Z ) = f ( σ ( Z ) ) = f ( σ ( U T Z V ) ) = F ( U T Z V ) F(\mathbf{Z})=f(\bm{\sigma}(\mathbf{Z}))=f(\bm{\sigma}(\mathbf{U}^T\mathbf{ZV}))=F(\mathbf{U}^T\mathbf{ZV}) F(Z)=f(σ(Z))=f(σ(UTZV))=F(UTZV). 做变量替换 W = U T Z V \mathbf{W}=\mathbf{U}^T\mathbf{ZV} W=UTZV, 于是 p r o x F ( X ) = U W ∗ V T \mathrm{prox}_F(\mathbf{X})=\mathbf{UW}^*\mathbf{V}^T proxF(X)=UWVT, 其中 W ∗ \mathbf{W}^* W min ⁡ W ∈ R m × n { G ( W ) ≡ F ( W ) + 1 2 ∥ W − D ∥ F 2 } \min_{\mathbf{W}\in\mathbb{R}^{m\times n}}\left\{G(\mathbf{W})\equiv F(\mathbf{W})+\frac{1}{2}\Vert\mathbf{W-D}\Vert_F^2\right\} WRm×nmin{G(W)F(W)+21WDF2}的唯一最优解. 下证 W ∗ \mathbf{W}^* W是广义对角阵. 取 i ∈ { 1 , 2 , … , r } i\in\{1,2,\ldots,r\} i{1,2,,r}. 令 Σ i ( 1 ) ∈ R m × m ,   Σ i ( 2 ) ∈ R n × n \mathbf{\Sigma}_i^{(1)}\in\mathbb{R}^{m\times m},\,\mathbf{\Sigma}_i^{(2)}\in\mathbb{R}^{n\times n} Σi(1)Rm×m,Σi(2)Rn×n分别为仅有 ( i , i ) (i,i) (i,i)元是 − 1 -1 1, 其余对角元全 1 1 1 m × m ,   n × n m\times m,\,n\times n m×m,n×n广义对角阵. 于是 Σ i ( 1 ) ∈ O m ,   Σ i ( 2 ) ∈ O n \mathbf{\Sigma}_i^{(1)}\in\mathbb{O}^m,\,\mathbf{\Sigma}_i^{(2)}\in\mathbb{O}^n Σi(1)Om,Σi(2)On. 定义 W ~ i = Σ i ( 1 ) W ∗ Σ i ( 2 ) \widetilde\mathbf{W}_i=\mathbf{\Sigma}_i^{(1)}\mathbf{W}^*\mathbf{\Sigma}_i^{(2)} W i=Σi(1)WΣi(2). 于是 F ( W ~ i ) = F ( Σ i ( 1 ) W ∗ Σ i ( 2 ) ) = f ( σ ( Σ i ( 1 ) W ∗ Σ i ( 2 ) ) ) = f ( σ ( W ∗ ) ) = F ( W ∗ ) , F(\widetilde\mathbf{W}_i)=F(\mathbf{\Sigma}_i^{(1)}\mathbf{W}^*\mathbf{\Sigma}_i^{(2)})=f(\bm{\sigma}(\mathbf{\Sigma}_i^{(1)}\mathbf{W}^*\mathbf{\Sigma}_i^{(2)}))=f(\bm{\sigma}(\mathbf{W}^*))=F(\mathbf{W}^*), F(W i)=F(Σi(1)WΣi(2))=f(σ(Σi(1)WΣi(2)))=f(σ(W))=F(W),进一步有 G ( W ~ i ) = F ( W ~ i ) + 1 2 ∥ W ~ i − D ∥ F 2 = F ( Σ i ( 1 ) W ∗ Σ i ( 2 ) ) + 1 2 ∥ Σ i ( 1 ) W ∗ Σ i ( 2 ) − D ∥ F 2 = F ( W ∗ ) + 1 2 ∥ W ∗ − Σ i ( 1 ) D Σ i ( 2 ) ∥ F 2 = F ( W ∗ ) + 1 2 ∥ W ∗ − D ∥ F 2 = G ( W ∗ ) . \begin{aligned}G(\widetilde\mathbf{W}_i)&=F(\widetilde\mathbf{W}_i)+\frac{1}{2}\Vert\widetilde\mathbf{W}_i-\mathbf{D}\Vert_F^2\\&=F(\mathbf{\Sigma}_i^{(1)}\mathbf{W}^*\mathbf{\Sigma}_i^{(2)})+\frac{1}{2}\Vert\mathbf{\Sigma}_i^{(1)}\mathbf{W}^*\mathbf{\Sigma}_i^{(2)}-\mathbf{D}\Vert_F^2\\&=F(\mathbf{W}^*)+\frac{1}{2}\Vert\mathbf{W}^*-\mathbf{\Sigma}_i^{(1)}\mathbf{D}\mathbf{\Sigma}_i^{(2)}\Vert_F^2\\&=F(\mathbf{W}^*)+\frac{1}{2}\Vert\mathbf{W}^*-\mathbf{D}\Vert_F^2\\&=G(\mathbf{W}^*).\end{aligned} G(W i)=F(W i)+21W iDF2=F(Σi(1)WΣi(2))+21Σi(1)WΣi(2)DF2=F(W)+21WΣi(1)DΣi(2)F2=F(W)+21WDF2=G(W).因此 W ~ i \widetilde\mathbf{W}_i W i也是最优解, 从而由最优解的唯一性知 W ∗ = Σ i ( 1 ) W ∗ Σ i ( 2 ) \mathbf{W}^*=\mathbf{\Sigma}_i^{(1)}\mathbf{W}^*\mathbf{\Sigma}_i^{(2)} W=Σi(1)WΣi(2). 比较等式两边第 i i i行与第 i i i列的元素即知 W i j ∗ = 0 , W j i ∗ = 0 ,   ∀ j ≠ i W_{ij}^*=0, W_{ji}^*=0,\,\forall j\ne i Wij=0,Wji=0,j=i. 由于这对 ∀ i ∈ { 1 , 2 , … , r } \forall i\in\{1,2,\ldots,r\} i{1,2,,r}都成立, 因此 W ∗ \mathbf{W}^* W是广义对角阵, 从而可写作 W ∗ = d g ( w ∗ ) \mathbf{W}^*=\mathrm{dg}(\mathbf{w}^*) W=dg(w), 其中 w ∗ \mathbf{w}^* w min ⁡ w { F ( d g ( w ) ) + 1 2 ∥ d g ( w ) − D ∥ F 2 } \min_{\mathbf{w}}\left\{F(\mathrm{dg}(\mathbf{w}))+\frac{1}{2}\Vert\mathrm{dg}(\mathbf{w})-\mathbf{D}\Vert_F^2\right\} wmin{F(dg(w))+21dg(w)DF2}的最优解. 由于 F ( d g ( w ) ) = f ( ∣ w ∣ ↓ ) = f ( w ) ,   ∥ d g ( w ) − D ∥ F 2 = ∥ w − σ ( X ) ∥ 2 2 F(\mathrm{dg}(\mathbf{w}))=f(|\mathbf{w}|^{\downarrow})=f(\mathbf{w}),\,\Vert\mathrm{dg}(\mathbf{w})-\mathbf{D}\Vert_F^2=\Vert\mathbf{w}-\bm{\sigma}(\mathbf{X})\Vert_2^2 F(dg(w))=f(w)=f(w),dg(w)DF2=wσ(X)22, 因此 w ∗ = arg ⁡ min ⁡ w { f ( w ) + 1 2 ∥ w − σ ( X ) ∥ 2 2 } = p r o x f ( σ ( X ) ) . \mathbf{w}^*=\arg\min_{\mathbf{w}}\left\{f(\mathbf{w})+\frac{1}{2}\Vert\mathbf{w}-\bm{\sigma}(\mathbf{X})\Vert_2^2\right\}=\mathrm{prox}_f(\bm{\sigma}(\mathbf{X})). w=argwmin{f(w)+21wσ(X)22}=proxf(σ(X)).从而 W ∗ = d g ( p r o x f ( σ ( X ) ) ) \mathbf{W}^*=\mathrm{dg}(\mathrm{prox}_f(\bm{\sigma}(\mathbf{X}))) W=dg(proxf(σ(X))), 代入即得证.

例14 利用 R m × n \mathbb{R}^{m\times n} Rm×n上的谱临近公式, 我们就可以计算对称谱函数的prox. 下表中, α > 0 \alpha>0 α>0, U ∈ O m ,   V ∈ O n \mathbf{U}\in\mathbb{O}^m,\,\mathbf{V}\in\mathbb{O}^n UOm,VOn是满足 X = U d g ( σ ( X ) ) V T \mathbf{X}=\mathbf{U}\mathrm{dg}(\bm{\sigma}(\mathbf{X}))\mathbf{V}^T X=Udg(σ(X))VT的正交阵.

F ( X ) F(\mathbf{X}) F(X) p r o x F ( X ) \mathrm{prox}_F(\mathbf{X}) proxF(X)参考第六章
α ∥ X ∥ F 2 \alpha\Vert\mathbf{X}\Vert_F^2 αXF2 1 1 + 2 α X \dfrac{1}{1+2\alpha}\mathbf{X} 1+2α1X2.3节
α ∥ X ∥ F \alpha\Vert\mathbf{X}\Vert_F αXF ( 1 − α max ⁡ { ∥ X ∥ F , α } ) X \left(1-\dfrac{\alpha}{\max\{\Vert\mathbf{X}\Vert_F,\alpha\}}\right)\mathbf{X} (1max{XF,α}α)X例8
α ∥ X ∥ S 1 \alpha\Vert\mathbf{X}\Vert_{S_1} αXS1 U d g ( T α ( σ ( X ) ) ) V T \mathbf{U}\mathrm{dg}(\mathcal{T}_{\alpha}(\bm{\sigma}(\mathbf{X})))\mathbf{V}^T Udg(Tα(σ(X)))VT例2
α ∥ X ∥ S ∞ \alpha\Vert\mathbf{X}\Vert_{S_{\infty}} αXS X − α U d g ( P B ∥ ⋅ ∥ 1 [ 0 , 1 ] ( σ ( X ) / α ) ) V T \mathbf{X}-\alpha\mathbf{U}\mathrm{dg}(P_{B_{\Vert\cdot\Vert_1}[\mathbf{0},1]}(\bm{\sigma}(\mathbf{X})/\alpha))\mathbf{V}^T XαUdg(PB1[0,1](σ(X)/α))VT例20
α ∥ X ∥ ⟨ k ⟩ \alpha\Vert\mathbf{X}\Vert_{\langle k\rangle} αXk X − α U d g ( P C ( σ ( X ) / α ) ) V T ,   C = B ∥ ⋅ ∥ 1 [ 0 , k ] ∩ B ∥ ⋅ ∥ ∞ [ 0 , 1 ] \mathbf{X}-\alpha\mathbf{U}\mathrm{dg}(P_C(\bm{\sigma}(\mathbf{X})/\alpha))\mathbf{V}^T,\,C=B_{\Vert\cdot\Vert_1}[\mathbf{0},k]\cap B_{\Vert\cdot\Vert_{\infty}}[\mathbf{0},1] XαUdg(PC(σ(X)/α))VT,C=B1[0,k]B[0,1]例23

我们称 T ⊂ R m × n T\subset\mathbb{R}^{m\times n} TRm×n R m × n \mathbb{R}^{m\times n} Rm×n中的对称谱集, 若其指示函数 δ T \delta_T δT R m × n \mathbb{R}^{m\times n} Rm×n上的对称谱函数, 即 δ T = δ C ∘ σ \delta_T=\delta_C\circ\bm{\sigma} δT=δCσ, 其中 δ C \delta_C δC为绝对排列对称函数. 称 C ⊂ R r C\subset\mathbb{R}^{r} CRr为关联集合. 因为 p r o x δ T = P T ,   p r o x δ C = P C \mathrm{prox}_{\delta_T}=P_T,\,\mathrm{prox}_{\delta_C}=P_C proxδT=PT,proxδC=PC, 所以由谱共轭公式, 若 C C C非空闭凸, 则 P T ( X ) = U d g ( P C ( σ ( X ) ) ) V T , ∀ X = U d g ( σ ( X ) ) V T ∈ R m × n ,   U ∈ O m ,   V ∈ O n . P_T(\mathbf{X})=\mathbf{U}\mathrm{dg}(P_C(\bm{\sigma}(\mathbf{X})))\mathbf{V}^T,\quad\forall\mathbf{X}=\mathbf{U}\mathrm{dg}(\bm{\sigma}(\mathbf{X}))\mathbf{V}^T\in\mathbb{R}^{m\times n},\,\mathbf{U}\in\mathbb{O}^m,\,\mathbf{V}\in\mathbb{O}^n. PT(X)=Udg(PC(σ(X)))VT,X=Udg(σ(X))VTRm×n,UOm,VOn.

例15 利用上面推导的 R m × n \mathbb{R}^{m\times n} Rm×n上的对称谱集指示函数的prox公式, 我们就可以计算到 R m × n \mathbb{R}^{m\times n} Rm×n中的一些对称谱集上的正交投影. 下表中, U ,   V \mathbf{U},\,\mathbf{V} U,V X \mathbf{X} X谱分解中的正交阵.

集合 ( T ) (T) (T) P T ( X ) P_T(\mathbf{X}) PT(X)假设条件参考第六章
B ∥ ⋅ ∥ S ∞ [ 0 , α ] B_{\Vert\cdot\Vert_{S_{\infty}}}[\mathbf{0},\alpha] BS[0,α] U d g ( v ) V T ,   v i = min ⁡ { σ i ( X ) , α } \mathbf{U}\mathrm{dg}(\mathbf{v})\mathbf{V}^T,\,v_i=\min\{\sigma_i(\mathbf{X}),\alpha\} Udg(v)VT,vi=min{σi(X),α} α > 0 \alpha>0 α>0引理2
B ∥ ⋅ ∥ F [ 0 , r ] B_{\Vert\cdot\Vert_F}[\mathbf{0},r] BF[0,r] r max ⁡ { ∥ X ∥ F , r } X \dfrac{r}{\max\{\Vert\mathbf{X}\Vert_F,r\}}\mathbf{X} max{XF,r}rX r > 0 r>0 r>0引理2
B ∥ ⋅ ∥ S 1 [ 0 , α ] B_{\Vert\cdot\Vert_{S_1}}[\mathbf{0},\alpha] BS1[0,α] { X , ∥ X ∥ S 1 ≤ α , U d g ( T β ∗ ( σ ( X ) ) ) V T , ∥ X ∥ S 1 > α ,   ∥ T β ∗ ( σ ( X ) ) ∥ 1 = α ,   β ∗ > 0 \left\{\begin{array}{ll}\mathbf{X}, & \Vert\mathbf{X}\Vert_{S_1}\le\alpha,\\\mathbf{U}\mathrm{dg}(\mathcal{T}_{\beta^*}(\bm{\sigma}(\mathbf{X})))\mathbf{V}^T, & \Vert\mathbf{X}\Vert_{S_1}>\alpha,\end{array}\right.\,\Vert\mathcal{T}_{\beta^*}(\bm{\sigma}(\mathbf{X}))\Vert_1=\alpha,\,\beta^*>0 {X,Udg(Tβ(σ(X)))VT,XS1α,XS1>α,Tβ(σ(X))1=α,β>0 α > 0 \alpha>0 α>0例14

  1. 线性代数理论告诉我们, 两矩阵可同时相似对角化的一个充分条件是二者可交换. 而这里同时正交对角化则可能需要更强的条件. ↩︎

  2. 从而由定理4, F F F也是正常闭凸函数. 因此二者的prox都是单值映射. ↩︎

  3. 这里要与 d i a g ( ⋅ ) \mathrm{diag}(\cdot) diag()区分开. 后者专指映射到方对角阵. ↩︎

  4. 事实上, Schatten p p p-范数才是向量 p p p-范数的自然推广. 二者具有诸多相同的性质. ↩︎

  5. 证明可见Rajendra Bhatia所著Matrix Analysis的定理IV.2.1. ↩︎

  6. 核范数可以视为矩阵秩的凸近似, 这在带秩约束的非凸问题求解中尤其重要. ↩︎

  7. 从而由定理4, F F F也是正常闭凸函数. 因此二者的prox都是单值映射. ↩︎

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值