一些矩阵范数的subgradients

《Subgradients》
Subderivate-wiki
Subgradient method-wiki
《Subgradient method》
Subgradient-Prof.S.Boyd,EE364b,StanfordUniversity
《Characterization of the Subdifferential of Some Matrix Norms 》

这篇文章主要参考:

《Characterization of the Subdifferential of Some Matrix Norms 》

矩阵 A ∈ R m × n A \in \mathbb{R}^{m\times n} ARm×n ∥ ⋅ ∥ \|\cdot\| 为矩阵范数,注意这里我们并没有限定为何种范数。那么 ∥ A ∥ \|A\| A的次梯度可以用下式表示:
∂ ∥ A ∥ = { G ∈ R m × n ∣ ∥ B ∥ > ∥ A ∥ + t r a c e [ ( B − A ) T G ] , a l l   B ∈ R m × n } \partial \|A\| = \{G \in \mathbb{R}^{m\times n}|\|B\| > \|A\| +\mathrm{trace}[(B-A)^TG],all \: B \in \mathbb{R}^{m \times n} \} A={GRm×nB>A+trace[(BA)TG],allBRm×n}
这个定义和之前提到的定义是相一致的,事实上, t r a c e ( A T B ) \mathrm{trace}(A^TB) trace(ATB)就相当于将 A A A B B B拉成俩个长向量作内积,比较实质就是对应元素相乘再相加。

G ∈ ∂ ∥ A ∥ G \in \partial \|A\| GA等价于:
在这里插入图片描述
在我看的书里面,对偶范数一般用 ∥ ⋅ ∥ ∗ \|\cdot\|_* 表示,且是如此定义的:
∥ z ∥ ∗ = sup ⁡ { z T x ∣ ∥ x ∥ ≤ 1 } \|z\|_* = \sup \{z^Tx| \|x\| \le 1\} z=sup{zTxx1}
因为下面还有很多地方是采取截图的形式展示的,所以还是沿袭论文的符号比较好,这里只是简单提一下。
至于为什么等价,论文里面没有提,我只能证明,满足那俩点条件的 G G G ∥ A ∥ \|A\| A的次梯度,而不能证明所有次梯度都满足那俩个条件。
证明如下:
假设 G G G满足上面的条件,那么:
t r a c e [ ( B − A ) T G ] = − ∥ A ∥ + t r a c e ( B T G ) ⇒ ∥ A ∥ + t r a c e [ ( B − A ) T G ] = t r a c e ( B T G ) \mathrm{trace}[(B-A)^TG]=-\|A\|+\mathrm{trace}(B^TG) \\ \Rightarrow \|A\| + \mathrm{trace}[(B-A)^TG] = \mathrm{trace}(B^TG) trace[(BA)TG]=A+trace(BTG)A+trace[(BA)TG]=trace(BTG)

t r a c e ( B T ∥ B ∥ G ) ≤ 1 = ∥ B ∥ ∥ B ∥ \mathrm{trace}(\frac{B^T}{\|B\|}G) \le 1=\frac{\|B\|}{\|B\|} trace(BBTG)1=BB
所以
∥ B ∥ ≥ ∥ A ∥ + t r a c e [ ( B − A ) T G ] \|B\|\ge \|A\| + \mathrm{trace}[(B-A)^TG] BA+trace[(BA)TG]
所以 G ∈ ∂ ∥ A ∥ G \in \partial \|A\| GA
不好意思,我想到怎么证明啦!下证, G ∈ ∂ ∥ A ∥ G \in \partial \|A\| GA必定满足上述的条件,我们先说明范数的一些性质:
齐次: ∥ t A ∥ = ∣ t ∣ ∥ A ∥ \|tA\|=|t|\|A\| tA=tA
三角不等式: ∥ A + B ∥ ≤ ∥ A ∥ + ∥ B ∥ \|A+B\| \le \|A\|+\|B\| A+BA+B
既然对所有 B ∈ R m × n B \in \mathbb{R}^{m \times n} BRm×n成立:
∥ B ∥ ≥ ∥ A ∥ + t r a c e [ ( B − A ) T G ] \|B\| \ge \|A\| + \mathrm{trace}[(B-A)^TG] BA+trace[(BA)TG]
B = 1 / 2 A B=1/2A B=1/2A,可得:
t r a c e ( A T G ) ≥ ∥ A ∥ \mathrm{trace}(A^TG) \ge \|A\| trace(ATG)A

∥ A + B ∥ ≤ ∥ A ∥ + ∥ B ∥ ≤ ∥ A + B ∥ − t r a c e [ B T G ] + ∥ B ∥ ⇒ t r a c e ( B T G ) ≤ ∥ B ∥ \|A+B\| \le \|A\| + \|B\| \le \|A+B\|-\mathrm{trace}[B^TG]+\|B\| \\ \Rightarrow \mathrm{trace}(B^TG)\le \|B\| A+BA+BA+Btrace[BTG]+Btrace(BTG)B
所以:
∥ A ∥ ≤ t r a c e ( A T G ) ≤ ∥ A ∥ ⇒ t r a c e ( A T G ) = ∥ A ∥ \|A\| \le \mathrm{trace}(A^TG) \le \|A\| \Rightarrow \mathrm{trace}(A^TG)=\|A\| Atrace(ATG)Atrace(ATG)=A
到此第一个条件得证。
又:
t r a c e ( B T G ) ≤ ∥ B ∥ ⇒ t r a c e ( B T ∥ B ∥ G ) = ∥ G ∥ ∗ ≤ 1 \mathrm{trace}(B^TG)\le \|B\| \Rightarrow \mathrm{trace}(\frac{B^T}{\|B\|}G) = \|G\|^*\le 1 trace(BTG)Btrace(BBTG)=G1
第二个条件也得证。漂亮!

正交不变范数

正交不变范数定义如下:
∥ U A V ∥ = ∥ A ∥ \|UAV\| = \|A\| UAV=A
其中 U , V U,V U,V为任意正交矩阵(原文是 ∥ U V A ∥ = ∥ A ∥ \|UVA\|=\|A\| UVA=A,我认为是作者的笔误)。
注意,如果范数 ∥ ⋅ ∥ \|\cdot\| 是正交不变的,那么其对偶范数同样是正交不变的,证明如下:
既然:
∥ Z ∥ ∗ = sup ⁡ { t r a c e ( Z T X ) ∣ ∥ X ∥ ≤ 1 } \|Z\|^*=\sup \{\mathrm{trace}(Z^TX)|\|X\|\le1 \} Z=sup{trace(ZTX)X1}
∥ U Z V ∥ ∗ = sup ⁡ { t r a c e ( V T Z T U T X ) ∣ ∥ X ∥ ≤ 1 } \|UZV\|^*=\sup \{\mathrm{trace}(V^TZ^TU^TX)|\|X\|\le1 \} UZV=sup{trace(VTZTUTX)X1}
U X V UXV UXV替代 X X X代入即可得:
∥ U Z V ∥ ∗ = sup ⁡ { t r a c e ( V T Z T U T X ) ∣ ∥ X ∥ ≤ 1 } = sup ⁡ { t r a c e ( V T Z T U T U X V ) ∣ ∥ U X V ∥ ≤ 1 } = sup ⁡ { t r a c e ( Z T X ) ∣ ∥ X ∥ ≤ 1 } = ∥ Z ∥ ∗ \begin{array}{ll} \|UZV\|^*&=\sup \{\mathrm{trace}(V^TZ^TU^TX)|\|X\|\le1 \}\\ &=\sup \{\mathrm{trace}(V^TZ^TU^TUXV)|\|UXV\|\le1 \}\\ &= \sup \{\mathrm{trace}(Z^TX)|\|X\|\le1 \}\\ &= \|Z\|^* \end{array} UZV=sup{trace(VTZTUTX)X1}=sup{trace(VTZTUTUXV)UXV1}=sup{trace(ZTX)X1}=Z
最后第二个等式成立根据迹的性质和 ∥ ⋅ ∥ \|\cdot\| 的题设。

我们假设矩阵 A A A的SVD分解为:
A = U Σ V T A = U\Sigma V^T A=UΣVT
其中 Σ ∈ R m × n \Sigma \in \mathbb{R}^{m \times n} ΣRm×n为对角矩阵(那种歪歪的对角矩阵), U U U V V V的列我们用 u i , v i u_i,v_i ui,vi来表示。
假设其奇异值:
σ 1 ≤ σ 2 ≤ … ≤ σ n \sigma_1\le \sigma_2 \le \ldots \le \sigma_n σ1σ2σn
降序排列。
所有这样的(正交不变?)范数都能用下式来定义:
∥ A ∥ = ϕ ( σ ) \|A\| = \phi(\sigma) A=ϕ(σ)
其中 σ = ( σ 1 , … , σ n ) T \sigma = (\sigma_1, \ldots, \sigma_n)^T σ=(σ1,,σn)T, ϕ \phi ϕ是一个对称规范函数(symmetirc gague function),满足:
在这里插入图片描述
上面这个东西我也证明不了,不过至少谱范数和核函数的确是这样的。

ϕ \phi ϕ的对偶可以用下式来表示:
ϕ ∗ = max ⁡ ϕ ( y ) = 1 x T y \phi^*= \max \limits_{\phi(y)=1} x^Ty ϕ=ϕ(y)=1maxxTy
而且其次梯度更矩阵范数又有相似的一个性质:
在这里插入图片描述
证明是类似的,不多赘述。

一种常见的正交不变范数可由下式定义:
∥ A ∥ = ∥ σ ∥ p \|A\| = \|\sigma\|_p A=σp
比较经典的, p = 1 p=1 p=1对应核范数, p = 2 p=2 p=2对应F范数, p = ∞ p=\infty p=对应谱范数。

定理1

在这里插入图片描述

证明如下:

这一部分的证明需要注意,不要把 A A A当成题目中的 A A A,当成 A + r R A+rR A+rR可能更容易理解。
在这里插入图片描述

这部分的证明,主要是得出了 σ i ( γ ) \sigma_i(\gamma) σi(γ)的一个泰勒展开,要想证明这个式子成立,可以利用上面的公式,也可以这么想。 σ i ( γ ) \sigma_i(\gamma) σi(γ) A + γ R A+\gamma R A+γR的第 i i i个奇异值:
lim ⁡ γ → 0 + σ i ( γ ) − σ i γ = lim ⁡ γ → 0 + σ i ( A + γ R ) − σ i γ = lim ⁡ γ → 0 + u i ( γ ) T ( A + γ R ) v i ( γ ) − σ i γ \lim_{\gamma \rightarrow 0^+} \frac{\sigma_i(\gamma)-\sigma_i}{\gamma}=\lim_{\gamma \rightarrow 0^+} \frac{\sigma_i(A+\gamma R)-\sigma_i}{\gamma}=\lim_{\gamma \rightarrow 0^+} \frac{u_i(\gamma)^T(A+\gamma R)v_i(\gamma)-\sigma_i}{\gamma} γ0+limγσi(γ)σi=γ0+limγσi(A+γR)σi=γ0+limγui(γ)T(A+γR)vi(γ)σi
即为:
lim ⁡ γ → 0 + u i ( γ ) T A v i ( γ ) − σ i γ + u i T R v i \lim_{\gamma \rightarrow 0^+} \frac{u_i(\gamma)^TAv_i(\gamma)-\sigma_i}{\gamma}+u_i^TRv_i γ0+limγui(γ)TAvi(γ)σi+uiTRvi
所以左边这项等于0?
在这里插入图片描述

下面的证明中,第一个不等式成立的原因是:
ϕ ( σ ) ≥ ϕ ( σ ( γ ) ) + ( σ − σ ( γ ) ) T d ( γ ) \phi(\sigma) \ge \phi(\sigma(\gamma))+(\sigma-\sigma(\gamma))^T\mathrm{d}(\gamma) ϕ(σ)ϕ(σ(γ))+(σσ(γ))Td(γ)
σ ( γ ) T d ( r ) = ϕ ( σ ( r ) ) \sigma(\gamma)^T\mathrm{d}(r)=\phi(\sigma(r)) σ(γ)Td(r)=ϕ(σ(r))
在这里插入图片描述

类似地,我们就可以得到下面的分析:
在这里插入图片描述
有一点点小问题是,没有体现出 max ⁡ \max max的,不过从(2.5)看,因为这个不等式是对所有 d ∈ ∂ ϕ ( σ ) \mathrm{d}\in \partial \phi(\sigma) dϕ(σ)都成立的,所以结果成立。怎么说呢,这个有点像是上确界的东西。

我们定义符号 c o n v { ⋅ } \mathrm{conv} \{\cdot \} conv{},表示集合的凸包。

定理2

注意,我们的最终目的是找到 ∂ ∥ A ∥ \partial \|A\| A利用前面的铺垫我们可以得到定理2:

在这里插入图片描述
相当有趣的一个东西。

下面是证明:

证明总的是分俩大部分来证明的,首先得证明 G ∈ c o n v { S ( A ) } G \in \mathrm{conv} \{S(A)\} Gconv{S(A)}满足上面的俩个条件,即是次梯度,再证明,不存在一个次梯度不属于 c o n v { S ( A ) } \mathrm{conv} \{S(A)\} conv{S(A)}
其实下面这部分的证明,我觉得用 A = U i Σ i V i T A = U_i\Sigma_i V_i^T A=UiΣiViT表示比较好,作者的意思应该是奇异值分解可以用不同的序,毕竟我们不能要求凸包中的元素有合适的序。
在这里插入图片描述

下面这部分的证明,感觉没什么好讲的。
在这里插入图片描述
下面这部分证明,打问号的地方我有疑惑,以为我觉得只能知道 ϕ ∗ ( d i ) ≤ 1 \phi^*(\mathrm{d}_i)\le 1 ϕ(di)1,而且在这个条件下,证明依旧。好吧,我明白了,因为: ϕ ∗ ( d i ) = max ⁡ ϕ ( x ) = 1 d i T x \phi^*(\mathrm{d}_i)=\max \limits_{\phi(x)=1}\mathrm{d}_i^Tx ϕ(di)=ϕ(x)=1maxdiTx,又 d i ∈ ϕ ( σ ) \mathrm{d}_i \in \phi(\sigma) diϕ(σ),所以只需令 x = σ / ∣ ϕ ( σ ) x=\sigma/|\phi(\sigma) x=σ/ϕ(σ)即可得 ϕ ∗ ( d i ) = 1 \phi^*(\mathrm{d}_i)=1 ϕ(di)=1
在这里插入图片描述
到此,俩个条件满足,第一部分证毕。

第二部分用到了一个理论,我没有去查阅。这部分证明的思想是,即便存在这么一个 G G G不属于 c o n v S ( A ) \mathrm{conv}S(A) convS(A) G G G依旧得满足 t r a c e ( R T G ) ≤ max ⁡ d ∈ ∂ ϕ ( σ ) ∑ t = 1 n d i u i T R v i \mathrm{trace}(R^TG) \le \max \limits_{\mathrm{d \in \partial \phi(\sigma)}} \sum \limits_{t=1}^n d_i u_i^TRv_i trace(RTG)dϕ(σ)maxt=1ndiuiTRvi(要知道,后面这个部分是类似右导数的存在!!!),这个的原理是一种极限的思想,不好表述,但是真的真的蛮容易证明的。
在这里插入图片描述

例子:谱范数

在这里插入图片描述
在这里插入图片描述
凸包,凸包,切记切记。

例子:核范数

在这里插入图片描述
上面倒数第二行那个式子成立,要注意 ∑ i λ i = 1 \sum_i \lambda_i =1 iλi=1这个条件。
在这里插入图片描述

注意:这里出现 Y , Z Y,Z Y,Z的原因是 U ( 2 ) , V ( 2 ) U^{(2)},V^{(2)} U(2),V(2)对应的奇异值为0,所以其顺序是任意的,并没有对应一说。

算子范数

∥ ⋅ ∥ A \|\cdot\|_A A ∥ ⋅ ∥ B \|\cdot\|_B B分别表示定义在 R m \mathbb{R}^m Rm R n \mathbb{R}^n Rn上的范数,那么对于矩阵 A ∈ R m × n A \in \mathbb{R}^{m \times n} ARm×n上的算子范数,可以如下定义:
∥ A ∥ = max ⁡ ∥ x ∥ B = 1 ∥ A x ∥ A \|A\| = \max \limits_{\|x\|_B=1} \|Ax\|_A A=xB=1maxAxA
注意,矩阵范数,向量范数都满足引里的那个等价条件(实际上,只需满足正定性和三角不等式即可,就能推出那个等价条件)。

定义 Φ ( A ) \Phi(A) Φ(A):
在这里插入图片描述

定理3

类似的,我们有定理3:
在这里插入图片描述

这部分的推导是类似的:
在这里插入图片描述
在这里插入图片描述

下面这部分和之前的是不同的,这么大费周章,就是为了证明最后收敛的结果在 Φ ( A ) \Phi(A) Φ(A)中,之间没有这部分的证明,是因为凸函数次梯度的集合是闭凸的?
在这里插入图片描述
在这里插入图片描述

定理4

这个定理,就是为了导出 ∥ A ∥ \|A\| A的次梯度。

在这里插入图片描述
这部分首先利用迹的性质,再利用 A v i = ∥ A ∥ u i Av_i=\|A\|u_i Avi=Aui
在这里插入图片描述
w i T R v i ≤ ∥ R ∥ w_i^TRv_i \le \|R\| wiTRviR的原因是 ∥ w i ∥ A ∗ ≤ 1 \|w_i\|_A^* \le1 wiA1,
∥ R v i ∥ A ∥ R ∥ = ∥ R v i ∥ A max ⁡ ∥ v ∥ _ B = 1 ∥ R v ∥ A ≤ 1 \frac{\|Rv_i\|_A}{\|R\|}=\frac{\|Rv_i\|_A}{\max \limits_{\|v\|\_B=1} \|Rv\|_A}\le1 RRviA=v_B=1maxRvARviA1(至少 ∥ R v i ∥ A = 1 \|Rv_i\|_A=1 RviA=1),所以有上面的结果。
在这里插入图片描述
到此,我们证明了, S ( A ) S(A) S(A)中的元素均为次梯度,下证凡是次梯度,必属于 S ( A ) S(A) S(A)

这部分证明没有需要特别说明的。
在这里插入图片描述

例子 ℓ 2 \ell_2 2

在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值