《Subgradients》
Subderivate-wiki
Subgradient method-wiki
《Subgradient method》
Subgradient-Prof.S.Boyd,EE364b,StanfordUniversity
《Characterization of the Subdifferential of Some Matrix Norms 》
这篇文章主要参考:
《Characterization of the Subdifferential of Some Matrix Norms 》
引
矩阵
A
∈
R
m
×
n
A \in \mathbb{R}^{m\times n}
A∈Rm×n,
∥
⋅
∥
\|\cdot\|
∥⋅∥为矩阵范数,注意这里我们并没有限定为何种范数。那么
∥
A
∥
\|A\|
∥A∥的次梯度可以用下式表示:
∂
∥
A
∥
=
{
G
∈
R
m
×
n
∣
∥
B
∥
>
∥
A
∥
+
t
r
a
c
e
[
(
B
−
A
)
T
G
]
,
a
l
l
 
B
∈
R
m
×
n
}
\partial \|A\| = \{G \in \mathbb{R}^{m\times n}|\|B\| > \|A\| +\mathrm{trace}[(B-A)^TG],all \: B \in \mathbb{R}^{m \times n} \}
∂∥A∥={G∈Rm×n∣∥B∥>∥A∥+trace[(B−A)TG],allB∈Rm×n}
这个定义和之前提到的定义是相一致的,事实上,
t
r
a
c
e
(
A
T
B
)
\mathrm{trace}(A^TB)
trace(ATB)就相当于将
A
A
A和
B
B
B拉成俩个长向量作内积,比较实质就是对应元素相乘再相加。
G
∈
∂
∥
A
∥
G \in \partial \|A\|
G∈∂∥A∥等价于:
在我看的书里面,对偶范数一般用
∥
⋅
∥
∗
\|\cdot\|_*
∥⋅∥∗表示,且是如此定义的:
∥
z
∥
∗
=
sup
{
z
T
x
∣
∥
x
∥
≤
1
}
\|z\|_* = \sup \{z^Tx| \|x\| \le 1\}
∥z∥∗=sup{zTx∣∥x∥≤1}
因为下面还有很多地方是采取截图的形式展示的,所以还是沿袭论文的符号比较好,这里只是简单提一下。
至于为什么等价,论文里面没有提,我只能证明,满足那俩点条件的
G
G
G是
∥
A
∥
\|A\|
∥A∥的次梯度,而不能证明所有次梯度都满足那俩个条件。
证明如下:
假设
G
G
G满足上面的条件,那么:
t
r
a
c
e
[
(
B
−
A
)
T
G
]
=
−
∥
A
∥
+
t
r
a
c
e
(
B
T
G
)
⇒
∥
A
∥
+
t
r
a
c
e
[
(
B
−
A
)
T
G
]
=
t
r
a
c
e
(
B
T
G
)
\mathrm{trace}[(B-A)^TG]=-\|A\|+\mathrm{trace}(B^TG) \\ \Rightarrow \|A\| + \mathrm{trace}[(B-A)^TG] = \mathrm{trace}(B^TG)
trace[(B−A)TG]=−∥A∥+trace(BTG)⇒∥A∥+trace[(B−A)TG]=trace(BTG)
又
t
r
a
c
e
(
B
T
∥
B
∥
G
)
≤
1
=
∥
B
∥
∥
B
∥
\mathrm{trace}(\frac{B^T}{\|B\|}G) \le 1=\frac{\|B\|}{\|B\|}
trace(∥B∥BTG)≤1=∥B∥∥B∥
所以
∥
B
∥
≥
∥
A
∥
+
t
r
a
c
e
[
(
B
−
A
)
T
G
]
\|B\|\ge \|A\| + \mathrm{trace}[(B-A)^TG]
∥B∥≥∥A∥+trace[(B−A)TG]
所以
G
∈
∂
∥
A
∥
G \in \partial \|A\|
G∈∂∥A∥’
不好意思,我想到怎么证明啦!下证,
G
∈
∂
∥
A
∥
G \in \partial \|A\|
G∈∂∥A∥必定满足上述的条件,我们先说明范数的一些性质:
齐次:
∥
t
A
∥
=
∣
t
∣
∥
A
∥
\|tA\|=|t|\|A\|
∥tA∥=∣t∣∥A∥
三角不等式:
∥
A
+
B
∥
≤
∥
A
∥
+
∥
B
∥
\|A+B\| \le \|A\|+\|B\|
∥A+B∥≤∥A∥+∥B∥
既然对所有
B
∈
R
m
×
n
B \in \mathbb{R}^{m \times n}
B∈Rm×n成立:
∥
B
∥
≥
∥
A
∥
+
t
r
a
c
e
[
(
B
−
A
)
T
G
]
\|B\| \ge \|A\| + \mathrm{trace}[(B-A)^TG]
∥B∥≥∥A∥+trace[(B−A)TG]
令
B
=
1
/
2
A
B=1/2A
B=1/2A,可得:
t
r
a
c
e
(
A
T
G
)
≥
∥
A
∥
\mathrm{trace}(A^TG) \ge \|A\|
trace(ATG)≥∥A∥
又
∥
A
+
B
∥
≤
∥
A
∥
+
∥
B
∥
≤
∥
A
+
B
∥
−
t
r
a
c
e
[
B
T
G
]
+
∥
B
∥
⇒
t
r
a
c
e
(
B
T
G
)
≤
∥
B
∥
\|A+B\| \le \|A\| + \|B\| \le \|A+B\|-\mathrm{trace}[B^TG]+\|B\| \\ \Rightarrow \mathrm{trace}(B^TG)\le \|B\|
∥A+B∥≤∥A∥+∥B∥≤∥A+B∥−trace[BTG]+∥B∥⇒trace(BTG)≤∥B∥
所以:
∥
A
∥
≤
t
r
a
c
e
(
A
T
G
)
≤
∥
A
∥
⇒
t
r
a
c
e
(
A
T
G
)
=
∥
A
∥
\|A\| \le \mathrm{trace}(A^TG) \le \|A\| \Rightarrow \mathrm{trace}(A^TG)=\|A\|
∥A∥≤trace(ATG)≤∥A∥⇒trace(ATG)=∥A∥
到此第一个条件得证。
又:
t
r
a
c
e
(
B
T
G
)
≤
∥
B
∥
⇒
t
r
a
c
e
(
B
T
∥
B
∥
G
)
=
∥
G
∥
∗
≤
1
\mathrm{trace}(B^TG)\le \|B\| \Rightarrow \mathrm{trace}(\frac{B^T}{\|B\|}G) = \|G\|^*\le 1
trace(BTG)≤∥B∥⇒trace(∥B∥BTG)=∥G∥∗≤1
第二个条件也得证。漂亮!
正交不变范数
正交不变范数定义如下:
∥
U
A
V
∥
=
∥
A
∥
\|UAV\| = \|A\|
∥UAV∥=∥A∥
其中
U
,
V
U,V
U,V为任意正交矩阵(原文是
∥
U
V
A
∥
=
∥
A
∥
\|UVA\|=\|A\|
∥UVA∥=∥A∥,我认为是作者的笔误)。
注意,如果范数
∥
⋅
∥
\|\cdot\|
∥⋅∥是正交不变的,那么其对偶范数同样是正交不变的,证明如下:
既然:
∥
Z
∥
∗
=
sup
{
t
r
a
c
e
(
Z
T
X
)
∣
∥
X
∥
≤
1
}
\|Z\|^*=\sup \{\mathrm{trace}(Z^TX)|\|X\|\le1 \}
∥Z∥∗=sup{trace(ZTX)∣∥X∥≤1}
∥
U
Z
V
∥
∗
=
sup
{
t
r
a
c
e
(
V
T
Z
T
U
T
X
)
∣
∥
X
∥
≤
1
}
\|UZV\|^*=\sup \{\mathrm{trace}(V^TZ^TU^TX)|\|X\|\le1 \}
∥UZV∥∗=sup{trace(VTZTUTX)∣∥X∥≤1}
令
U
X
V
UXV
UXV替代
X
X
X代入即可得:
∥
U
Z
V
∥
∗
=
sup
{
t
r
a
c
e
(
V
T
Z
T
U
T
X
)
∣
∥
X
∥
≤
1
}
=
sup
{
t
r
a
c
e
(
V
T
Z
T
U
T
U
X
V
)
∣
∥
U
X
V
∥
≤
1
}
=
sup
{
t
r
a
c
e
(
Z
T
X
)
∣
∥
X
∥
≤
1
}
=
∥
Z
∥
∗
\begin{array}{ll} \|UZV\|^*&=\sup \{\mathrm{trace}(V^TZ^TU^TX)|\|X\|\le1 \}\\ &=\sup \{\mathrm{trace}(V^TZ^TU^TUXV)|\|UXV\|\le1 \}\\ &= \sup \{\mathrm{trace}(Z^TX)|\|X\|\le1 \}\\ &= \|Z\|^* \end{array}
∥UZV∥∗=sup{trace(VTZTUTX)∣∥X∥≤1}=sup{trace(VTZTUTUXV)∣∥UXV∥≤1}=sup{trace(ZTX)∣∥X∥≤1}=∥Z∥∗
最后第二个等式成立根据迹的性质和
∥
⋅
∥
\|\cdot\|
∥⋅∥的题设。
我们假设矩阵
A
A
A的SVD分解为:
A
=
U
Σ
V
T
A = U\Sigma V^T
A=UΣVT
其中
Σ
∈
R
m
×
n
\Sigma \in \mathbb{R}^{m \times n}
Σ∈Rm×n为对角矩阵(那种歪歪的对角矩阵),
U
U
U和
V
V
V的列我们用
u
i
,
v
i
u_i,v_i
ui,vi来表示。
假设其奇异值:
σ
1
≤
σ
2
≤
…
≤
σ
n
\sigma_1\le \sigma_2 \le \ldots \le \sigma_n
σ1≤σ2≤…≤σn
降序排列。
所有这样的(正交不变?)范数都能用下式来定义:
∥
A
∥
=
ϕ
(
σ
)
\|A\| = \phi(\sigma)
∥A∥=ϕ(σ)
其中
σ
=
(
σ
1
,
…
,
σ
n
)
T
\sigma = (\sigma_1, \ldots, \sigma_n)^T
σ=(σ1,…,σn)T,
ϕ
\phi
ϕ是一个对称规范函数(symmetirc gague function),满足:
上面这个东西我也证明不了,不过至少谱范数和核函数的确是这样的。
ϕ
\phi
ϕ的对偶可以用下式来表示:
ϕ
∗
=
max
ϕ
(
y
)
=
1
x
T
y
\phi^*= \max \limits_{\phi(y)=1} x^Ty
ϕ∗=ϕ(y)=1maxxTy
而且其次梯度更矩阵范数又有相似的一个性质:
证明是类似的,不多赘述。
一种常见的正交不变范数可由下式定义:
∥
A
∥
=
∥
σ
∥
p
\|A\| = \|\sigma\|_p
∥A∥=∥σ∥p
比较经典的,
p
=
1
p=1
p=1对应核范数,
p
=
2
p=2
p=2对应F范数,
p
=
∞
p=\infty
p=∞对应谱范数。
定理1
证明如下:
这一部分的证明需要注意,不要把
A
A
A当成题目中的
A
A
A,当成
A
+
r
R
A+rR
A+rR可能更容易理解。
这部分的证明,主要是得出了
σ
i
(
γ
)
\sigma_i(\gamma)
σi(γ)的一个泰勒展开,要想证明这个式子成立,可以利用上面的公式,也可以这么想。
σ
i
(
γ
)
\sigma_i(\gamma)
σi(γ)是
A
+
γ
R
A+\gamma R
A+γR的第
i
i
i个奇异值:
lim
γ
→
0
+
σ
i
(
γ
)
−
σ
i
γ
=
lim
γ
→
0
+
σ
i
(
A
+
γ
R
)
−
σ
i
γ
=
lim
γ
→
0
+
u
i
(
γ
)
T
(
A
+
γ
R
)
v
i
(
γ
)
−
σ
i
γ
\lim_{\gamma \rightarrow 0^+} \frac{\sigma_i(\gamma)-\sigma_i}{\gamma}=\lim_{\gamma \rightarrow 0^+} \frac{\sigma_i(A+\gamma R)-\sigma_i}{\gamma}=\lim_{\gamma \rightarrow 0^+} \frac{u_i(\gamma)^T(A+\gamma R)v_i(\gamma)-\sigma_i}{\gamma}
γ→0+limγσi(γ)−σi=γ→0+limγσi(A+γR)−σi=γ→0+limγui(γ)T(A+γR)vi(γ)−σi
即为:
lim
γ
→
0
+
u
i
(
γ
)
T
A
v
i
(
γ
)
−
σ
i
γ
+
u
i
T
R
v
i
\lim_{\gamma \rightarrow 0^+} \frac{u_i(\gamma)^TAv_i(\gamma)-\sigma_i}{\gamma}+u_i^TRv_i
γ→0+limγui(γ)TAvi(γ)−σi+uiTRvi
所以左边这项等于0?
下面的证明中,第一个不等式成立的原因是:
ϕ
(
σ
)
≥
ϕ
(
σ
(
γ
)
)
+
(
σ
−
σ
(
γ
)
)
T
d
(
γ
)
\phi(\sigma) \ge \phi(\sigma(\gamma))+(\sigma-\sigma(\gamma))^T\mathrm{d}(\gamma)
ϕ(σ)≥ϕ(σ(γ))+(σ−σ(γ))Td(γ)
又
σ
(
γ
)
T
d
(
r
)
=
ϕ
(
σ
(
r
)
)
\sigma(\gamma)^T\mathrm{d}(r)=\phi(\sigma(r))
σ(γ)Td(r)=ϕ(σ(r))
类似地,我们就可以得到下面的分析:
有一点点小问题是,没有体现出
max
\max
max的,不过从(2.5)看,因为这个不等式是对所有
d
∈
∂
ϕ
(
σ
)
\mathrm{d}\in \partial \phi(\sigma)
d∈∂ϕ(σ)都成立的,所以结果成立。怎么说呢,这个有点像是上确界的东西。
我们定义符号 c o n v { ⋅ } \mathrm{conv} \{\cdot \} conv{⋅},表示集合的凸包。
定理2
注意,我们的最终目的是找到 ∂ ∥ A ∥ \partial \|A\| ∂∥A∥利用前面的铺垫我们可以得到定理2:
相当有趣的一个东西。
下面是证明:
证明总的是分俩大部分来证明的,首先得证明
G
∈
c
o
n
v
{
S
(
A
)
}
G \in \mathrm{conv} \{S(A)\}
G∈conv{S(A)}满足上面的俩个条件,即是次梯度,再证明,不存在一个次梯度不属于
c
o
n
v
{
S
(
A
)
}
\mathrm{conv} \{S(A)\}
conv{S(A)}。
其实下面这部分的证明,我觉得用
A
=
U
i
Σ
i
V
i
T
A = U_i\Sigma_i V_i^T
A=UiΣiViT表示比较好,作者的意思应该是奇异值分解可以用不同的序,毕竟我们不能要求凸包中的元素有合适的序。
下面这部分的证明,感觉没什么好讲的。
下面这部分证明,打问号的地方我有疑惑,以为我觉得只能知道
ϕ
∗
(
d
i
)
≤
1
\phi^*(\mathrm{d}_i)\le 1
ϕ∗(di)≤1,而且在这个条件下,证明依旧。好吧,我明白了,因为:
ϕ
∗
(
d
i
)
=
max
ϕ
(
x
)
=
1
d
i
T
x
\phi^*(\mathrm{d}_i)=\max \limits_{\phi(x)=1}\mathrm{d}_i^Tx
ϕ∗(di)=ϕ(x)=1maxdiTx,又
d
i
∈
ϕ
(
σ
)
\mathrm{d}_i \in \phi(\sigma)
di∈ϕ(σ),所以只需令
x
=
σ
/
∣
ϕ
(
σ
)
x=\sigma/|\phi(\sigma)
x=σ/∣ϕ(σ)即可得
ϕ
∗
(
d
i
)
=
1
\phi^*(\mathrm{d}_i)=1
ϕ∗(di)=1。
到此,俩个条件满足,第一部分证毕。
第二部分用到了一个理论,我没有去查阅。这部分证明的思想是,即便存在这么一个
G
G
G不属于
c
o
n
v
S
(
A
)
\mathrm{conv}S(A)
convS(A),
G
G
G依旧得满足
t
r
a
c
e
(
R
T
G
)
≤
max
d
∈
∂
ϕ
(
σ
)
∑
t
=
1
n
d
i
u
i
T
R
v
i
\mathrm{trace}(R^TG) \le \max \limits_{\mathrm{d \in \partial \phi(\sigma)}} \sum \limits_{t=1}^n d_i u_i^TRv_i
trace(RTG)≤d∈∂ϕ(σ)maxt=1∑ndiuiTRvi(要知道,后面这个部分是类似右导数的存在!!!),这个的原理是一种极限的思想,不好表述,但是真的真的蛮容易证明的。
例子:谱范数
凸包,凸包,切记切记。
例子:核范数
上面倒数第二行那个式子成立,要注意
∑
i
λ
i
=
1
\sum_i \lambda_i =1
∑iλi=1这个条件。
注意:这里出现 Y , Z Y,Z Y,Z的原因是 U ( 2 ) , V ( 2 ) U^{(2)},V^{(2)} U(2),V(2)对应的奇异值为0,所以其顺序是任意的,并没有对应一说。
算子范数
让
∥
⋅
∥
A
\|\cdot\|_A
∥⋅∥A和
∥
⋅
∥
B
\|\cdot\|_B
∥⋅∥B分别表示定义在
R
m
\mathbb{R}^m
Rm和
R
n
\mathbb{R}^n
Rn上的范数,那么对于矩阵
A
∈
R
m
×
n
A \in \mathbb{R}^{m \times n}
A∈Rm×n上的算子范数,可以如下定义:
∥
A
∥
=
max
∥
x
∥
B
=
1
∥
A
x
∥
A
\|A\| = \max \limits_{\|x\|_B=1} \|Ax\|_A
∥A∥=∥x∥B=1max∥Ax∥A
注意,矩阵范数,向量范数都满足引里的那个等价条件(实际上,只需满足正定性和三角不等式即可,就能推出那个等价条件)。
定义
Φ
(
A
)
\Phi(A)
Φ(A):
定理3
类似的,我们有定理3:
这部分的推导是类似的:
下面这部分和之前的是不同的,这么大费周章,就是为了证明最后收敛的结果在
Φ
(
A
)
\Phi(A)
Φ(A)中,之间没有这部分的证明,是因为凸函数次梯度的集合是闭凸的?
定理4
这个定理,就是为了导出 ∥ A ∥ \|A\| ∥A∥的次梯度。
这部分首先利用迹的性质,再利用
A
v
i
=
∥
A
∥
u
i
Av_i=\|A\|u_i
Avi=∥A∥ui
w
i
T
R
v
i
≤
∥
R
∥
w_i^TRv_i \le \|R\|
wiTRvi≤∥R∥的原因是
∥
w
i
∥
A
∗
≤
1
\|w_i\|_A^* \le1
∥wi∥A∗≤1,
又
∥
R
v
i
∥
A
∥
R
∥
=
∥
R
v
i
∥
A
max
∥
v
∥
_
B
=
1
∥
R
v
∥
A
≤
1
\frac{\|Rv_i\|_A}{\|R\|}=\frac{\|Rv_i\|_A}{\max \limits_{\|v\|\_B=1} \|Rv\|_A}\le1
∥R∥∥Rvi∥A=∥v∥_B=1max∥Rv∥A∥Rvi∥A≤1(至少
∥
R
v
i
∥
A
=
1
\|Rv_i\|_A=1
∥Rvi∥A=1),所以有上面的结果。
到此,我们证明了,
S
(
A
)
S(A)
S(A)中的元素均为次梯度,下证凡是次梯度,必属于
S
(
A
)
S(A)
S(A)。
这部分证明没有需要特别说明的。