译自书 《Optimization Algorithms on Matrix Manifolds》
在矩阵流形上优化一个实值函数,是科研和工程中广泛存在的问题。在这一章节中,我们将会讨论几个相关的例子,以此体现研究流形优化的动机和意义。在第一部分,我们聚焦于特征值问题。 这个问题将作为一个典型的例子贯穿全书。这显然是一个非常重要的问题,已经,且仍会被广泛地研究。 作为一个优化问题,它自然地属于本书提出的框架,即其求解域是一个矩阵流形。 此外,还有大量的相关问题(特征分解, 主成分分析,广义特征值问题等),提供了大量启发式的例子来展示本书后续所要提到的算法。
之后,对于一些具有对称性的问题, 我们还会描述一些尚未被系统性归纳的方法。这些罗列的问题远非详尽, 而是作为一种启示, 让读者们可以以流形优化的角度来思考许多计算问题。
一个样例的学习: 特征值问题
矩阵的特征空间和特征值的计算是工程和物理领域的一个难题。构造特征空间的一般原则是通过关注几个相关的量而忽略其他的量来降低问题的复杂性。
各种定义
让
F
\mathcal{F}
F代表实数或复数域。
A
A
A代表一个
n
×
n
n \times n
n×n 矩阵,其元素属于
F
\mathcal{F}
F。 任意非零向量
v
v
v 满足:
A
v
=
λ
v
.
Av = \lambda v.
Av=λv.
v v v 代表特征向量, λ \lambda λ 是特征值。 特征值被称为矩阵的谱。 ( λ , v ) (\lambda, v) (λ,v)被称为特征对。
A
A
A的特征值也被称为A的特征多项式的零点。
P
A
(
z
)
≡
det
(
A
−
z
I
)
\mathcal{P}_{A}(z) \equiv \operatorname{det}(A-z I)
PA(z)≡det(A−zI)
对于可逆矩阵
T
T
T,
(
λ
,
v
)
(\lambda, v)
(λ,v)是
A
A
A 的特征对,则
(
λ
,
T
v
)
(\lambda, Tv)
(λ,Tv)是
T
A
T
−
1
TAT^{-1}
TAT−1的特征对。
A
↦
T
A
T
−
1
A \mapsto T A T^{-1}
A↦TAT−1被称为对
A
A
A的相似变换。
一个
F
\mathcal{F}
F的(线性)子空间可定义如下:
∀
x
,
y
∈
S
,
∀
a
,
b
∈
F
:
(
a
x
+
b
y
)
∈
S
\forall x, y \in \mathcal{S}, \forall a, b \in \mathbb{F}:(a x+b y) \in \mathcal{S}
∀x,y∈S,∀a,b∈F:(ax+by)∈S
如果空间
S
\mathcal{S}
S的任意元素都可以表示为集合
{
y
1
,
.
.
.
,
y
p
}
\{y_1,...,y_p\}
{y1,...,yp}的线性组合,则
S
\mathcal{S}
S被称为该集合展开的空间, 也被称为
n
×
p
n\times p
n×p 矩阵
Y
=
[
y
1
,
.
.
.
,
y
p
]
Y=[y_1,...,y_p]
Y=[y1,...,yp]的列空间。可写为:
S
=
span
(
Y
)
=
{
Y
x
:
x
∈
F
p
}
=
Y
F
p
\mathcal{S}=\operatorname{span}(Y)=\left\{Y x: x \in \mathbb{F}^{p}\right\}=Y \mathbb{F}^{p}
S=span(Y)={Yx:x∈Fp}=YFp
如果
Y
Y
Y是一个满秩矩阵,那么
Y
Y
Y的列被称为
S
\mathcal{S}
S的一组基。任意两组基拥有同样数量的elements, 被称为
S
\mathcal{S}
S的维度。
F
n
\mathcal{F}^n
Fn的所有
p
−
p-
p−维的子空间,表示为
G
r
a
s
s
(
p
,
n
)
\mathrm{Grass}(p,n)
Grass(p,n), 这在本书中非常重要。后面我们会看到
G
r
a
s
s
(
p
,
n
)
\mathrm{Grass}(p,n)
Grass(p,n) 表示了一种被称为Grassmann流形的流形结构。
矩阵 B B B的(零空间)由满足 B x = 0 Bx=0 Bx=0的向量 x x x组成。 当且仅当 A − λ I A-\lambda I A−λI的零空间维度大于0时, λ \lambda λ被称为 A A A的特征值, 该零空间被称为 A A A关于 λ \lambda λ的特征空间。
一个
n
×
n
n \times n
n×n的矩阵
A
A
A自然地引入了一种在
G
r
a
s
s
(
p
,
n
)
\mathrm{Grass}(p,n)
Grass(p,n)上的映射:
S
∈
Grass
(
p
,
n
)
↦
A
S
:
=
{
A
y
:
y
∈
S
}
\mathcal{S} \in \operatorname{Grass}(p, n) \mapsto A \mathcal{S}:=\{A y: y \in \mathcal{S}\}
S∈Grass(p,n)↦AS:={Ay:y∈S}
如果有,
A
S
⊆
S
A \mathcal{S} \subseteq \mathcal{S}
AS⊆S, 子空间
S
\mathcal{S}
S被称为
A
A
A的特征空间或不变子空间。
许多情况下,
A
A
A是对称矩阵, 则其特征值为实数,且其特征向量两两正交。
令特征值
λ
1
≤
⋯
≤
λ
n
\lambda_{1} \leq \cdots \leq \lambda_{n}
λ1≤⋯≤λn,
(
λ
1
,
v
1
)
(\lambda_1,v_1)
(λ1,v1)被称为
A
A
A的极左特征对 (leftmost eigenpair)。 一个
p
−
p-
p−维极左不变子空间为关于
λ
1
,
.
.
λ
p
\lambda_1,..\lambda_p
λ1,..λp的不变子空间。同理,
p
−
p-
p−维极右不变子空间表示为与
λ
n
−
p
+
1
,
…
,
λ
n
\lambda_{n-p+1}, \ldots, \lambda_{n}
λn−p+1,…,λn关联的不变子空间。
定义由两个
n
×
n
n\times n
n×n的矩阵
A
A
A和
B
B
B组成的矩阵束
(
A
,
B
)
(A,B)
(A,B), 如果
A
v
=
λ
B
v
A v=\lambda B v
Av=λBv
称
(
λ
,
v
)
(\lambda, v)
(λ,v)为该矩阵束的广义特征值。 当
A
A
A是对称矩阵,
B
B
B是对称正定矩阵时,这个广义特征值问题也被称为对称/正定的。这种情况下,广义特征值将均为实数且特征向量构成
B
B
B的一组正交基。
子空间 Y \mathcal{Y} Y被称为矩阵束 ( A , B ) (A,B) (A,B)的广义不变子空间, 当 B − 1 A y ∈ Y for all y ∈ Y B^{-1} A y \in \mathcal{Y} \text { for all } y \in \mathcal{Y} B−1Ay∈Y for all y∈Y。 显然,一个简单的例子就是 Y \mathcal{Y} Y由广义特征向量张成。
优化问题:特征值问题
首先给出一些有助于特征值问题规划和求解的结论。
命题2.1.1: 令
A
A
A和
B
B
B是两个
n
×
n
n\times n
n×n的对称矩阵,且
B
B
B是正定。 令
λ
1
≤
⋯
≤
λ
n
\lambda_{1} \leq \cdots \leq \lambda_{n}
λ1≤⋯≤λn为矩阵束
(
A
,
B
)
(A,B)
(A,B)的广义特征值。 考虑广义瑞丽商(generalized Rayleigh quotient):
f
(
Y
)
=
tr
(
Y
T
A
Y
(
Y
T
B
Y
)
−
1
)
f(Y)=\operatorname{tr}\left(Y^{T} A Y\left(Y^{T} B Y\right)^{-1}\right)
f(Y)=tr(YTAY(YTBY)−1)
其中,定义域为所有
n
×
p
n\times p
n×p的满秩矩阵。 则以下陈述等价:
- s p a n ( Y ∗ ) \mathrm{span}(Y_*) span(Y∗)是一个矩阵束 ( A , B ) (A,B) (A,B)极左不变子空间.
- Y ∗ Y_* Y∗是 f ( Y ) f(Y) f(Y)的极小值解。
- f ( Y ∗ ) = ∑ i = 1 p λ i f\left(Y_{*}\right)=\sum_{i=1}^{p} \lambda_{i} f(Y∗)=∑i=1pλi
证明:略。可参考我的博文《瑞丽熵的两种启发式证明》
当
p
=
1
,
B
=
I
p=1, B=I
p=1,B=I时,
f
f
f退化为:
f
:
R
∗
n
→
R
:
y
↦
f
(
y
)
=
y
T
A
y
y
T
y
f: \mathbb{R}_{*}^{n} \rightarrow \mathbb{R}: y \mapsto f(y)=\frac{y^{T} A y}{y^{T} y}
f:R∗n→R:y↦f(y)=yTyyTAy
其最小值解为:
v
1
r
v_1r
v1r,
v
1
v_1
v1为最小特征值对应的特征向量,
r
∈
R
∗
r \in \mathcal{R}_*
r∈R∗,
R
∗
\mathcal{R}_*
R∗为
R
\mathcal{R}
R去掉零点。 即
r
r
r是任意非零标量。这一问题也被称为A的瑞丽商问题。 瑞丽商问题可以被看做是一个流形的优化问题。
不太令人放心的点是这个问题的解 v 1 r v_1r v1r有许多个。 因此,一些重要的收敛性方法在这里并不容易使用。如牛顿法。
这并不仅仅只在瑞丽商问题下存在,事实上,对于任意齐次函数
f
f
f, 也就是
f
(
y
α
)
=
f
(
y
)
for all real
α
≠
0
f(y \alpha)=f(y) \text { for all real } \alpha \neq 0
f(yα)=f(y) for all real α=0
都会有类似的问题存在。
一种解决的办法是限制
f
f
f的定义域到
R
∗
\mathcal{R}_*
R∗的子集
M
M
M, 使得其中只含有一个或有限个极值解。一种简洁的选择是:
S
n
−
1
:
=
{
y
∈
R
n
:
y
T
y
=
1
}
S^{n-1}:=\left\{y \in \mathbb{R}^{n}: y^{T} y=1\right\}
Sn−1:={y∈Rn:yTy=1}
即限域在单位球面上。限制问题的可行集让我们得到了分离的最小解。 同时我们失去了定义域的线性性质。 而这本书的目的就是提供一些工具,可以用来用数值化的方法求解非线性的流形上的问题, 来解决类似的问题。
另一种方法, 更具有挑战性但更适合该问题,是工作在一个域上: y R ∗ y\mathcal{R}_* yR∗, 且将该域的所有点视为一个点。 这样任何有效的信息没有丢失。 这个集合可以看做:
M
:
=
{
y
R
∗
:
y
∈
R
∗
n
}
\mathcal{M}:=\left\{y \mathbb{R}_{*}: y \in \mathbb{R}_{*}^{n}\right\}
M:={yR∗:y∈R∗n}
,对于任何一个
y
y
y, 把
y
R
∗
y\mathcal{R}_*
yR∗看做一个点。
M
:
\mathcal{M}:
M:就是这些点的集合。 对于
S
n
−
1
S^{n-1}
Sn−1来说,有两个最小化瑞丽商的点:
v
1
v_1
v1和
−
v
1
-v_1
−v1。 而对于
M
M
M而言只有一个,即
v
1
R
∗
v_1\mathcal{R}_*
v1R∗ (
v
1
v_1
v1和
−
v
1
-v_1
−v1均属于
v
1
R
∗
v_1\mathcal{R}_*
v1R∗)。第三章中会展示,
M
:
\mathcal{M}:
M:被称为实投影空间,为“商流形”结构。后续章节会讲到能应用于这一结构下的数值化算法。 在一维(单特征向量)情形下, 球面空间和商空间在处理这一问题的效果等效。 然而, 当问题复杂到多维时, 商空间的方法引出了Grassmann流形,会是更好的选择。
优化框架的一些好处
我们将在整本书中说明,基于优化的特征值算法有许多可取的性质。
对于所有的基于优化框架的算法来说,一个重要的特性是,优化理论提供了坚实的框架以给出收敛性分析。 许多基于优化的特征算法展现了几乎全局收敛性。 这表明了这个方法面对任意的初始条件都能有很好的收敛性。
算法的收敛速度也是另一个性质。 基于梯度的算法往往是线性收敛,即连续迭代之间的误差收缩率渐进地以常数 c ( c < 1 ) c(c<1) c(c<1)为界。相反的,牛顿法类似的下降算法往往拥有超线性收敛性, 即下降速度近似趋于0.
描述给定算法的全局行为和(局部)收敛速度是衡量算法性能的重要指标。
在大多数情况下,这种分析是优化框架的免费副产品.
研究问题
这个章节会简单地讲述一些计算问题, 可以通过基于流形的优化方法应对解决。
这些问题还处于一个初步的研究状态,读者们可以去参考一些参考文献。
奇异值问题
奇异值分解是一种非常有效的方法在数字计算中, 由于在诸如主成分分析(PCA)这样的降维问题时。
对于任意一个矩阵
A
∈
R
m
×
n
A \in \mathbb{R}^{m \times n}
A∈Rm×n, 其奇异值分解可表示为:
A
=
U
Σ
V
T
A=U \Sigma V^{T}
A=UΣVT
其中
U
U
U和
V
V
V均为酉阵, KaTeX parse error: Undefined control sequence: \Sigama at position 1: \̲S̲i̲g̲a̲m̲a̲是一个对角阵,且对角元素为:
σ
1
≥
⋯
≥
σ
n
≥
0
\sigma_{1} \geq \cdots \geq \sigma_{n} \geq 0
σ1≥⋯≥σn≥0
矩阵
A
A
A可以被表示为一组rank-1的矩阵之和:
A
=
∑
i
=
1
n
σ
i
u
i
v
i
T
A=\sum_{i=1}^{n} \sigma_{i} u_{i} v_{i}^{T}
A=i=1∑nσiuiviT
矩阵奇异值分解在许多问题中用到,一个常见的例子就是 对于
m
×
n
m\times n
m×n的矩阵
A
A
A的最佳低秩估计。 即:
arg
min
X
∈
R
p
∥
A
−
X
∥
F
2
\arg \min _{X \in \mathcal{R}_{p}}\|A-X\|_{F}^{2}
argX∈Rpmin∥A−X∥F2
R
p
\mathcal{R}_p
Rp表示包含所有rank为
p
p
p的
m
×
n
m\times n
m×n的矩阵的集合。 这个问题的最优解是
X
=
∑
i
=
1
p
σ
i
u
i
v
i
T
X=\sum_{i=1}^{p} \sigma_{i} u_{i} v_{i}^{T}
X=i=1∑pσiuiviT
这个结论也被称为Eckart-Young-Mirsky定理。 证明较为复杂,可参考维基。
奇异值问题与特征值问题非常相关。 对于下面的最大化问题:
f
(
U
,
V
)
=
tr
(
U
T
A
V
N
)
f(U, V)=\operatorname{tr}\left(U^{T} A V N\right)
f(U,V)=tr(UTAVN)
限制:
U
T
U
=
I
p
and
V
T
V
=
I
p
,
where
N
=
diag
(
μ
1
,
…
,
μ
p
)
U^{T} U=I_{p} \text { and } V^{T} V=I_{p}, \text { where } N=\operatorname{diag}\left(\mu_{1}, \ldots, \mu_{p}\right)
UTU=Ip and VTV=Ip, where N=diag(μ1,…,μp)有
μ
1
>
.
.
.
>
μ
p
>
0
\mu_1>...>\mu_p>0
μ1>...>μp>0。 那么,解为
U
U
U和
V
V
V分别为
A
A
A的最大的
p
p
p个奇异值所对应的左右奇异向量。 这其实是一个定义在流形上的优化问题, 即
{
U
∈
R
n
×
p
:
U
T
U
=
I
p
}
\left\{U \in \mathbb{R}^{n \times p}: U^{T} U=I_{p}\right\}
{U∈Rn×p:UTU=Ip}该限制条件刻画了一个
R
n
×
p
\mathbb{R}^{n \times p}
Rn×p的嵌入式子流形, 被称为Stiefel manifold。
矩阵近似问题
在矩阵近似框架如下:
min
X
∈
M
∥
A
−
X
∥
F
2
\min _{X \in \mathcal{M}}\|A-X\|_{F}^{2}
X∈Mmin∥A−X∥F2
我们有如下一些问题。
如, 对称半正定的最小二乘问题
minimize
∥
C
−
C
0
∥
2
subject to
rank
(
C
)
=
p
,
C
=
C
T
,
C
⪰
0
\begin{aligned} &\text { minimize } \quad\left\|C-C_{0}\right\|^{2}\\ &\text { subject to } \operatorname{rank}(C)=p, C=C^{T}, C \succeq 0 \end{aligned}
minimize ∥C−C0∥2 subject to rank(C)=p,C=CT,C⪰0.
这个问题也可以被改写为以满秩矩阵
Y
Y
Y为变量的问题 (
C
=
Y
Y
T
C= YY^T
C=YYT),:
f
:
R
∗
n
×
p
→
R
:
Y
↦
∥
Y
Y
T
−
C
0
∥
2
f: \mathbb{R}_{*}^{n \times p} \rightarrow \mathbb{R}: Y \mapsto\left\|Y Y^{T}-C_{0}\right\|^{2}
f:R∗n×p→R:Y↦∥∥YYT−C0∥∥2
显然,
f
(
Y
Q
)
=
f
(
Y
)
f(Y Q)=f(Y)
f(YQ)=f(Y)成立,对于任意正交矩阵
Q
Q
Q,也因此拥有非唯一解。 一种做法是类似于瑞丽商问题的方法,将之限制在一个商流形下,如定义
{
Y
Q
:
Q
T
Q
=
I
}
\left\{Y Q: Q^{T} Q=I\right\}
{YQ:QTQ=I}为商空间的一个点。