Latent Multi-view Subspace Clustering
原文地址:https://www.onacademic.com/detail/journal_1000040248521410_5407.html
Abstract
论文提出了一种新的潜在多视点聚类方法,该方法对具有潜在表示的数据点进行聚类,同时从多个视点中挖掘潜在的互补信息。与现有的利用原始特征重构数据点的单视图子空间聚类方法不同,我们的方法寻找潜在的潜在表示,并在学习到的潜在表示的基础上进行数据重构。
由于多视图的互补性,潜在表示可以比单个视图更全面地描述数据本身,从而提高子空间表示的准确性和鲁棒性。该方法具有直观、高效的特点,并采用了改进的拉格朗日乘子交替方向最小化(ALM-ADM)算法。
1 Introduction
一般而言,子空间聚类方法认为数据点是从对应于不同簇的多个子空间中提取的。最近提出了一种基于自表示的子空间聚类方法,该方法可以用数据点本身的线性组合来表示每一个数据点,一般公式表示如下:
min
Z
L
(
X
,
X
Z
)
+
α
Ω
(
Z
)
(1)
\min _{\mathbf{Z}} L(\mathbf{X}, \mathbf{X Z})+\alpha \Omega(\mathbf{Z})\tag1
ZminL(X,XZ)+αΩ(Z)(1)
α
>
0
α > 0
α>0 平衡了 重构的误差和子空间表示
Z
Z
Z 的正则化
L
(
.
)
L(.)
L(.) 和
Ω
(
.
)
\Omega(.)
Ω(.) 各自表示损失函数和正则化项,通常是根据不同的假设来定义的,比如SSC,LLR,SMR。
基于自我表示矩阵 Z Z Z ,通常用 S = a b s ( Z ) + a b s ( Z T ) S=abs(Z)+abs(Z^T ) S=abs(Z)+abs(ZT)来构建相似矩阵,最后,基于相似矩阵 S S S ,通常使用谱聚类算法来得到最后聚类结果。
以往的子空间聚类方法仍然存在不足的地方,他们的performance通常受到原始特征之类的影响,特别是在观测量不足或严重损坏的情况下。因此多视角聚类被提出来了,其中每个数据点都用 来自多个来源的特征信息 来描述。这些多视图表示包含来自多个线索的丰富信息,有利于任务聚类。在适当的多视图约束条件下,这些子空间聚类方法显示出了它们的优越性。它们通常直接重构原始视图上的数据点,并生成每个视图的子空间表示。然而,单个视图通常不足以描述数据点,这使得仅使用一个视图进行重构本身存在风险。此外,数据采集可能存在噪声,进一步增加了聚类的难度。
为了解决这些问题,论文中介绍了 a latent representation to expolre the relationships among data points and handle the possible noise.
假设多重视角来源于一个共同的潜在表示,它可以从本质上描述数据,并且揭示一般的不同视角共享的潜在结构。基于此,论文提出了
L
a
t
e
n
t
M
u
l
t
i
−
v
i
e
w
S
u
b
s
p
a
c
e
C
l
u
s
t
e
r
i
n
g
(
L
M
S
C
)
Latent\ Multi-view\ Subspace\ Clustering\ (LMSC)
Latent Multi−view Subspace Clustering (LMSC)。提出的方法基于多视角特征学习潜在表示,并且生成了一般的子空间表示。更多的,该方法将潜表示学习和多视角子空间聚类集成在一个统一的框架内,并利用增广拉格朗日乘子和交替方向最小化策略 来进行了优化。
论文使用综合的多视图潜在表示进行数据重构,而不是原始的每个单一视图。
与LS3C对原始单视图数据进行降维不同,论文方法恢复了潜在的多视图表示,并在这种潜在表示下同时学习了不同视图对应的投影。
2 Proposed Approach
论文考虑潜在表示(latent representation)子空间聚类。给出 N 个多视角的观测量
{
[
x
i
(
1
)
;
…
;
x
i
(
V
)
]
}
i
=
1
N
\left\{\left[\mathrm{x}_{i}^{(1)} ; \ldots ; \mathrm{x}_{i}^{(V)}\right]\right\}_{i=1}^{N}
{[xi(1);…;xi(V)]}i=1N,它包括了
V
V
V 个不同视角,目标是推出每个数据点共享的latent representation
h
\mathbf{h}
h .
论文方法假设这些不同视角都是源于一个潜在的表示。如上图所示,不同视角的观测结果可以使用各自的模型
{
P
(
1
)
,
…
,
P
(
V
)
}
\left\{\mathbf{P}^{(1)}, \ldots, \mathbf{P}^{(V)}\right\}
{P(1),…,P(V)}和共享潜在表示
H
=
{
h
i
}
i
=
1
N
\mathbf{H}=\left\{\mathbf{h}_{i}\right\}_{i=1}^{N}
H={hi}i=1N来重构。相应的,作者有
x
i
(
v
)
=
P
(
v
)
h
i
\mathbf{x}_{i}^{(v)}=\mathbf{P}^{(v)} \mathbf{h}_{i}
xi(v)=P(v)hi,考虑噪音,可以得到:
x
i
(
v
)
=
P
(
v
)
h
i
+
e
i
(
v
)
(2)
\mathbf{x}_{i}^{(v)}=\mathbf{P}^{(v)} \mathbf{h}_{i}+\mathbf{e}^{(v)}_i\tag2
xi(v)=P(v)hi+ei(v)(2)其中
e
i
(
v
)
\mathbf{e}^{(v)}_i
ei(v) 表示对应于
v
t
h
v^{th}
vth视角的重构误差
要推出的多视角潜表示的目标函数:
min
P
,
H
L
h
(
X
,
P
H
)
with
X
=
[
X
(
1
)
⋯
X
(
V
)
]
and
P
=
[
P
(
1
)
⋯
P
(
V
)
]
(3)
\begin{array}{l}\min _{\mathbf{P}, \mathbf{H}} L_{h}(\mathbf{X}, \mathbf{P H}) \\\text { with } \mathbf{X}=\left[\begin{array}{c}\mathbf{X}^{(1)} \\\cdots \\\mathbf{X}^{(V)}\end{array}\right] \text { and } \mathbf{P}=\left[\begin{array}{c}\mathbf{P}^{(1)} \\\cdots \\\mathbf{P}^{(V)}\end{array}\right]\end{array}\tag3
minP,HLh(X,PH) with X=⎣⎡X(1)⋯X(V)⎦⎤ and P=⎣⎡P(1)⋯P(V)⎦⎤(3)其中
X
和
P
\mathbf{X} 和\mathbf{P}
X和P分别四多视角的观测值和与之对齐的重构模型
L
h
(
.
)
L_h( . )
Lh(.)表示 与潜在(隐藏)表示所关联 的损失函数
一般来说,在多视角的互补性作用下,隐性表征比单独对应于单个视角的表征更具有综合性
基于潜在(隐藏)表示 H \mathbf{H} H ,基于自表示的子空间聚类的目标函数式(1)重新表示为 min Z L r ( H , H Z ) + α Ω ( Z ) (4) \min _{\mathbf{Z}} L_{r}(\mathbf{H}, \mathbf{H Z})+\alpha \Omega(\mathbf{Z})\tag4 ZminLr(H,HZ)+αΩ(Z)(4)其中 L r ( ⋅ ) L_r( ·) Lr(⋅)为数据重构相关的损失函数,Z为重构系数矩阵
将Eq.(3)中的潜在表示学习和Eq.(4)中的子空间聚类整合为一个统一的目标函数,如下所示 min P , H , Z L h ( X , P H ) + λ 1 L r ( H , H Z ) + λ 2 Ω ( Z ) (5) \min _{\mathbf{P}, \mathbf{H}, \mathbf{Z}} L_{h}(\mathbf{X}, \mathbf{P} \mathbf{H})+\lambda_{1} L_{r}(\mathbf{H}, \mathbf{H Z})+\lambda_{2} \Omega(\mathbf{Z})\tag5 P,H,ZminLh(X,PH)+λ1Lr(H,HZ)+λ2Ω(Z)(5) λ 1 和 λ 2 \lambda_1 和 \lambda_2 λ1和λ2平衡此三项
合理的潜在表示和子空间重构的约束保证了子空间聚类。而多视图的互补性保证了隐表示,并通过子空间重构改进了隐表示。考虑到离群点的鲁棒性,最终的目标函数如下
min
P
,
H
,
Z
,
E
h
,
E
r
∥
E
h
∥
2
,
1
+
λ
1
∥
E
r
∥
2
,
1
+
λ
2
∥
Z
∥
∗
s.t.
X
=
P
H
+
E
h
,
H
=
H
Z
+
E
r
and
P
P
T
=
I
(6)
\begin{array}{c}\min _{\mathbf{P}, \mathbf{H}, \mathbf{Z}, \mathbf{E}_{h}, \mathbf{E}_{r}}\left\|\mathbf{E}_{h}\right\|_{2,1}+\lambda_{1}\left\|\mathbf{E}_{r}\right\|_{2,1}+\lambda_{2}\|\mathbf{Z}\|_{*} \\\text {s.t. } \mathbf{X}=\mathbf{P} \mathbf{H}+\mathbf{E}_{h}, \mathbf{H}=\mathbf{H Z}+\mathbf{E}_{r} \text { and } \mathbf{P} \mathbf{P}^{T}=\mathbf{I}\end{array}\tag6
minP,H,Z,Eh,Er∥Eh∥2,1+λ1∥Er∥2,1+λ2∥Z∥∗s.t. X=PH+Eh,H=HZ+Er and PPT=I(6)
∣
∣
.
∣
∣
∗
|| . ||_*
∣∣.∣∣∗ 矩阵核范数,保证子空间的表示是低秩的.
∣
∣
.
∣
∣
2
,
1
|| . ||_{2,1}
∣∣.∣∣2,1即
ℓ
2
,
1
-norm
\ell_{2,1} \text { -norm }
ℓ2,1 -norm ,尽可能使(encourage)矩阵的列为零,其定义为
∥
A
∥
2
,
1
=
∑
j
=
1
D
∑
i
=
1
C
A
i
j
2
with
A
∈
R
C
×
D
\|\mathbf{A}\|_{2,1}=\sum_{j=1}^{D} \sqrt{\sum_{i=1}^{C} \mathrm{~A}_{i j}^{2}} \text { with } \mathbf{A} \in \mathbb{R}^{C \times D}
∥A∥2,1=∑j=1D∑i=1C Aij2 with A∈RC×D
潜在假设数据坏块是具体的样本的
约束P,因为在没有约束的情况下,H只能通过重新矫正 H/s和Ps (s > 0)来任意地趋近于零,同时保持相同的损失。
第一项被用来保证学习的潜表示H和重建模型P(v)与不同的视角相关联,有利于重构 观测值
第二项惩罚 潜(隐藏)多视角子空间 重构的误差
最后一项通过使子空间的表示低秩,来避免平凡解
鲁棒性受益于两方面
一方面,因为多视角间互补的信息,相比于单视角,潜在子空间的表示可以更综合地描述数据
第二方面, 2,1 第一和第二项的核范数是matrix block norm(矩阵块规范?),这比Frobenius准则(范数)对异常值更稳健
更进一步,垂直连结了潜在表示和子空间表示相对应的误差列。在积分的方式上,它将使Eh和Er的列具有共同一致的量值,于是,目标函数有以下形式: min P , H , Z , E h , E r ∥ E ∥ 2 , 1 + λ ∥ Z ∥ ∗ s.t. X = P H + E h , H = H Z + E r , E = [ E h ; E r ] and P P T = I (7) \begin{array}{c}\min _{\mathbf{P}, \mathbf{H}, \mathbf{Z}, \mathbf{E}_{h}, \mathbf{E}_{r}}\|\mathbf{E}\|_{2,1}+\lambda\|\mathbf{Z}\|_{*} \\\text {s.t. } \mathbf{X}=\mathbf{P} \mathbf{H}+\mathbf{E}_{h}, \mathbf{H}=\mathbf{H Z}+\mathbf{E}_{r}, \\\mathbf{E}=\left[\mathbf{E}_{h} ; \mathbf{E}_{r}\right] \text { and } \mathbf{P} \mathbf{P}^{T}=\mathbf{I}\end{array}\tag7 minP,H,Z,Eh,Er∥E∥2,1+λ∥Z∥∗s.t. X=PH+Eh,H=HZ+Er,E=[Eh;Er] and PPT=I(7)参数 λ > 0 \lambda>0 λ>0平衡了误差和正则化项
3 Optimization
目标函数在从多视角学习潜空间的同时,找到了有意义的有关潜空间的相似矩阵。
尽管目标函数对于所有变量
P
,
H
,
Z
,
E
h
,
E
r
\mathbf{P,H,Z,E_h,E_r}
P,H,Z,Eh,Er 并不是凸的,它们中的每一个都可以通过固定其他的来有效地解决。
增广拉格朗日乘子(ALM) 和 交替方向最小化(ADM) 是解决问题的有效高效方法。
采用ADM策略来解决优化问题,要是目标函数是可分离的。因此,引入一个辅助变量
J
\mathbf{J}
J 去替换目标函数中的核心项
Z
\mathbf{Z}
Z 。有以下等价问题
min
P
,
H
,
Z
,
E
h
,
E
r
,
J
∥
E
∥
2
,
1
+
λ
∥
J
∥
∗
s.t.
X
=
P
H
+
E
h
,
H
=
H
Z
+
E
r
,
E
=
[
E
h
;
E
r
]
and
P
P
T
=
I
a
n
d
J
=
Z
(8)
\begin{array}{c}\min _{\mathbf{P}, \mathbf{H}, \mathbf{Z}, \mathbf{E}_{h}, \mathbf{E}_{r},\mathbf{J}}\|\mathbf{E}\|_{2,1}+\lambda\|\mathbf{J}\|_{*} \\\text {s.t. } \mathbf{X}=\mathbf{P} \mathbf{H}+\mathbf{E}_{h}, \mathbf{H}=\mathbf{H Z}+\mathbf{E}_{r}, \\\mathbf{E}=\left[\mathbf{E}_{h} ; \mathbf{E}_{r}\right] \text { and } \mathbf{P} \mathbf{P}^{T}=\mathbf{I} and \mathbf{J=Z}\end{array}\tag8
minP,H,Z,Eh,Er,J∥E∥2,1+λ∥J∥∗s.t. X=PH+Eh,H=HZ+Er,E=[Eh;Er] and PPT=IandJ=Z(8)
上述目标函数可以通过最小化下面的ALM问题来求解
L
P
,
H
,
Z
,
E
h
,
E
r
,
J
)
=
∥
E
∥
2
,
1
+
λ
∥
J
∥
∗
+
Φ
(
Y
1
,
X
−
P
H
−
E
h
)
+
Φ
(
Y
2
,
H
−
H
Z
−
E
r
)
+
Φ
(
Y
3
,
J
−
Z
)
s.t.
P
P
T
=
I
\begin{aligned}\mathcal{L} &\left.\mathbf{P}, \mathbf{H}, \mathbf{Z}, \mathbf{E}_{h}, \mathbf{E}_{r}, \mathbf{J}\right) \\&=\|\mathbf{E}\|_{2,1}+\lambda\|\mathbf{J}\|_{*} \\&+\Phi\left(\mathbf{Y}_{1}, \mathbf{X}-\mathbf{P} \mathbf{H}-\mathbf{E}_{h}\right) \\&+\Phi\left(\mathbf{Y}_{2}, \mathbf{H}-\mathbf{H Z}-\mathbf{E}_{r}\right)+\Phi\left(\mathbf{Y}_{3}, \mathbf{J}-\mathbf{Z}\right) \\\text { s.t. } \mathbf{P} \mathbf{P}^{T}=\mathbf{I}\end{aligned}
L s.t. PPT=IP,H,Z,Eh,Er,J)=∥E∥2,1+λ∥J∥∗+Φ(Y1,X−PH−Eh)+Φ(Y2,H−HZ−Er)+Φ(Y3,J−Z)
definition:
Φ
(
C
,
D
)
=
μ
2
∥
D
∥
F
2
+
⟨
C
,
D
⟩
\Phi(\mathbf{C}, \mathbf{D})=\frac{\mu}{2}\|\mathbf{D}\|_{F}^{2}+\langle\mathbf{C}, \mathbf{D}\rangle
Φ(C,D)=2μ∥D∥F2+⟨C,D⟩,其中
⟨
.
,
.
⟩
\langle.,.\rangle
⟨.,.⟩定义了矩阵的内积,
μ
\mu
μ是一个正惩罚标量
为了使用ALM-ADM优化问题,问题分为以下几个子问题
1. P-subproblem
固定其他变量不变,只有P变化 P ∗ = arg min Φ ( Y 1 , X − P H − E h ) s.t. P P T = I (10) \begin{array}{l}\mathbf{P}^{*}=\arg \min \Phi\left(\mathbf{Y}_{1}, \mathbf{X}-\mathbf{P} \mathbf{H}-\mathbf{E}_{h}\right) \\\text { s.t. } \mathbf{P} \mathbf{P}^{T}=\mathbf{I}\end{array}\tag{10} P∗=argminΦ(Y1,X−PH−Eh) s.t. PPT=I(10)
此优化的解决方法是使用
P
T
=
U
V
,
其
中
,
U
,
V
\mathbf{P}^T=\mathbf{UV},其中,\mathbf{U,V}
PT=UV,其中,U,V分别是
H
(
Y
1
+
X
−
E
h
)
T
\mathbf{H}\left(\mathbf{Y}_{1}+\mathbf{X}-\mathbf{E}_{h}\right)^{T}
H(Y1+X−Eh)T的SVD分解后的左右奇异值,就有
P
∗
=
arg
min
Φ
(
Y
1
,
X
−
P
H
−
E
h
)
=
arg
min
μ
2
∥
X
−
P
H
−
E
h
+
Y
1
∥
F
2
=
arg
min
μ
2
∥
(
X
+
Y
1
/
μ
−
E
h
)
−
P
H
∥
F
2
=
arg
min
μ
2
∥
(
X
+
Y
1
/
μ
−
E
h
)
T
−
H
T
P
T
∥
F
2
\begin{array}{l}\mathbf{P}^{*}=\arg \min \Phi\left(\mathbf{Y}_{1}, \mathbf{X}-\mathbf{P} \mathbf{H}-\mathbf{E}_{h}\right) \\=\arg \min \frac{\mu}{2}\left\|\mathbf{X}-\mathbf{P} \mathbf{H}-\mathbf{E}_{h}+\mathbf{Y}_{1}\right\|_{F}^{2} \\=\arg \min \frac{\mu}{2}\left\|\left(\mathbf{X}+\mathbf{Y}_{1} / \mu-\mathbf{E}_{h}\right)-\mathbf{P} \mathbf{H}\right\|_{F}^{2} \\=\arg \min \frac{\mu}{2}\left\|\left(\mathbf{X}+\mathbf{Y}_{1} / \mu-\mathbf{E}_{h}\right)^{T}-\mathbf{H}^{T} \mathbf{P}^{T}\right\|_{F}^{2}\end{array}
P∗=argminΦ(Y1,X−PH−Eh)=argmin2μ∥X−PH−Eh+Y1∥F2=argmin2μ∥(X+Y1/μ−Eh)−PH∥F2=argmin2μ∥∥∥(X+Y1/μ−Eh)T−HTPT∥∥∥F2
约束P为正交矩阵(
P
P
T
=
I
,
P
∈
R
k
×
d
,
k
<
<
d
PP^T=I,P\in \mathbb{R}^{k\times d},k<<d
PPT=I,P∈Rk×d,k<<d),性能和收敛都得到了保障
2. H-subproblem
H
∗
=
arg
min
Φ
(
Y
1
,
X
−
P
H
−
E
h
)
+
Φ
(
Y
2
,
H
−
H
Z
−
E
r
)
\begin{aligned}\mathbf{H}^{*}=\arg \min \Phi\left(\mathbf{Y}_{1}, \mathbf{X}\right.&\left.-\mathbf{P} \mathbf{H}-\mathbf{E}_{h}\right) \\+& \Phi\left(\mathbf{Y}_{2}, \mathbf{H}-\mathbf{H Z}-\mathbf{E}_{r}\right)\end{aligned}
H∗=argminΦ(Y1,X+−PH−Eh)Φ(Y2,H−HZ−Er)
求导令其=0,得到
A
H
+
H
B
=
C
with
A
=
μ
P
T
P
,
B
=
μ
(
Z
Z
T
−
Z
−
Z
T
+
I
)
C
=
(
P
T
Y
1
+
Y
2
(
Z
T
−
I
)
)
+
μ
(
P
T
X
+
E
r
T
−
P
T
E
h
−
E
r
Z
T
)
\begin{array}{l}\mathrm{AH}+\mathrm{HB}=\mathrm{C} \\\text { with } \mathrm{A}=\mu \mathrm{P}^{T} \mathrm{P}, \mathrm{B}=\mu\left(\mathrm{ZZ}^{T}-\mathrm{Z}-\mathrm{Z}^{T}+\mathrm{I}\right) \\\mathrm{C}=\left(\mathrm{P}^{T} \mathrm{Y}_{1}+\mathrm{Y}_{2}\left(\mathrm{Z}^{T}-\mathrm{I}\right)\right) \\\quad+\mu\left(\mathrm{P}^{T} \mathrm{X}+\mathrm{E}_{r}^{T}-\mathrm{P}^{T} \mathrm{E}_{h}-\mathrm{E}_{r} \mathrm{Z}^{T}\right)\end{array}
AH+HB=C with A=μPTP,B=μ(ZZT−Z−ZT+I)C=(PTY1+Y2(ZT−I))+μ(PTX+ErT−PTEh−ErZT)
由Sylvester equation
A
H
+
H
B
=
C
AH+HB=C
AH+HB=C , A和 -B无公共特征根时,方程H有确切的唯一解
3. Z-subproblem
Z
∗
=
arg
min
Z
Φ
(
Y
3
,
J
−
Z
)
+
Φ
(
Y
2
,
H
−
H
Z
−
E
r
)
\mathbf{Z}^{*}=\arg \min _{\mathbf{Z}} \Phi\left(\mathbf{Y}_{3}, \mathbf{J}-\mathbf{Z}\right)+\Phi\left(\mathbf{Y}_{2}, \mathbf{H}-\mathbf{H Z}-\mathbf{E}_{r}\right)
Z∗=argZminΦ(Y3,J−Z)+Φ(Y2,H−HZ−Er)
求导令其=0
Z
∗
=
(
H
T
H
+
I
)
−
1
[
(
J
+
H
T
H
−
H
T
E
r
)
+
(
Y
3
+
H
T
Y
2
)
/
μ
]
\begin{array}{r}\mathrm{Z}^{*}=\left(\mathrm{H}^{T} \mathrm{H}+\mathrm{I}\right)^{-1}\left[\left(\mathrm{~J}+\mathrm{H}^{T} \mathrm{H}-\mathrm{H}^{T} \mathrm{E}_{r}\right)\right. \\\left.+\left(\mathrm{Y}_{3}+\mathrm{H}^{T} \mathrm{Y}_{2}\right) / \mu\right]\end{array}
Z∗=(HTH+I)−1[( J+HTH−HTEr)+(Y3+HTY2)/μ]
4. E-subproblem
E
∗
=
arg
min
E
∥
E
∥
2
,
1
+
Φ
(
Y
1
,
X
−
P
H
−
E
h
)
+
Φ
(
Y
2
,
H
−
H
Z
−
E
r
)
=
arg
min
E
1
μ
∥
E
∥
2
,
1
+
1
2
∥
E
−
G
∥
F
2
\begin{aligned}\mathbf{E}^{*}=& \arg \min _{\mathbf{E}}\|\mathbf{E}\|_{2,1}+\Phi\left(\mathbf{Y}_{1}, \mathbf{X}-\mathbf{P} \mathbf{H}-\mathbf{E}_{h}\right) \\+& \Phi\left(\mathbf{Y}_{2}, \mathbf{H}-\mathbf{H Z}-\mathbf{E}_{r}\right) \\=& \arg \min _{\mathbf{E}} \frac{1}{\mu}\|\mathbf{E}\|_{2,1}+\frac{1}{2}\|\mathbf{E}-\mathbf{G}\|_{F}^{2}\end{aligned}
E∗=+=argEmin∥E∥2,1+Φ(Y1,X−PH−Eh)Φ(Y2,H−HZ−Er)argEminμ1∥E∥2,1+21∥E−G∥F2
where
G
is formed by vertically concatenating the matrices
X
−
P
H
+
Y
1
/
μ
and
H
−
H
Z
+
Y
2
/
μ
.
\begin{aligned}&\text { where } \mathrm{G} \text { is formed by vertically concatenating the matrices }\\&\mathrm{X}-\mathrm{PH}+\mathrm{Y}_{1} / \mu \text { and } \mathrm{H}-\mathrm{HZ}+\mathrm{Y}_{2} / \mu . \end{aligned}
where G is formed by vertically concatenating the matrices X−PH+Y1/μ and H−HZ+Y2/μ.
5. J-subproblem
J
∗
=
arg
min
J
λ
∥
J
∥
∗
+
Φ
(
Y
3
,
J
−
Z
)
=
λ
μ
∥
J
∥
∗
+
1
2
∥
J
−
(
Z
−
Y
3
/
μ
)
∥
F
2
\begin{aligned}\mathbf{J}^{*} &=\arg \min _{\mathbf{J}} \lambda\|\mathbf{J}\|_{*}+\Phi\left(\mathbf{Y}_{3}, \mathbf{J}-\mathbf{Z}\right) \\&=\frac{\lambda}{\mu}\|\mathbf{J}\|_{*}+\frac{1}{2}\left\|\mathbf{J}-\left(\mathbf{Z}-\mathbf{Y}_{3} / \mu\right)\right\|_{F}^{2}\end{aligned}
J∗=argJminλ∥J∥∗+Φ(Y3,J−Z)=μλ∥J∥∗+21∥J−(Z−Y3/μ)∥F2
上述问题可以用奇异值阈值操作解决
6. Updating Multipliers
{ Y 1 = Y 1 + μ ( X − P H − E h ) Y 2 = Y 2 + μ ( H − H Z − E r ) Y 3 = Y 3 + μ ( J − Z ) \left\{\begin{array}{l}\mathbf{Y}_{1}=\mathbf{Y}_{1}+\mu\left(\mathbf{X}-\mathbf{P} \mathbf{H}-\mathbf{E}_{h}\right) \\\mathbf{Y}_{2}=\mathbf{Y}_{2}+\mu\left(\mathbf{H}-\mathbf{H Z}-\mathbf{E}_{r}\right) \\\mathbf{Y}_{3}=\mathbf{Y}_{3}+\mu(\mathbf{J}-\mathbf{Z})\end{array}\right. ⎩⎨⎧Y1=Y1+μ(X−PH−Eh)Y2=Y2+μ(H−HZ−Er)Y3=Y3+μ(J−Z)
优化中的H首先用随机化初始的块变量
5 个人整理:优化中用到的数学
(AB)T=BT AT
Augmented Lagrange Multiplier(ALM)
增广拉格朗日乘子法
https://blog.csdn.net/deepinc/article/details/79344981
增广拉格朗日乘子法(Augmented Lagrange Method),是用于解决等式约束条件下的优化问题。相对于朴素拉格朗日,它增加对偶上升法的鲁棒性和放松函数f的强凸约束,使得转换后的问题能够更容易求解,不至于因条件数变大不好求
在朴素拉格朗日形式上加上一个惩罚项
ρ
2
∥
φ
(
x
)
∥
2
2
\frac{\rho}{2}\|\varphi(x)\|_{2}^{2}
2ρ∥φ(x)∥22
min
f
(
x
)
s.t.
φ
(
x
)
=
0
}
⇒
L
(
x
,
λ
)
=
f
(
x
)
+
λ
φ
(
x
)
+
ρ
2
∥
φ
(
x
)
∥
2
2
,
其
中
惩
罚
因
子
ρ
>
0
\left.\begin{array}{l}\min f(x) \\\text { s.t. } \varphi(x)=0\end{array}\right\} \Rightarrow L(x, \lambda)=f(x)+\lambda \varphi(x)+\frac{\rho}{2}\|\varphi(x)\|_{2}^{2},其中惩罚因子{\rho}>0
minf(x) s.t. φ(x)=0}⇒L(x,λ)=f(x)+λφ(x)+2ρ∥φ(x)∥22,其中惩罚因子ρ>0
更新迭代:
1.
假
设
λ
k
为
当
前
k
轮
迭
代
的
对
偶
问
题
最
优
解
2.
求
解
x
k
+
1
:
x
k
+
1
=
a
r
g
m
i
n
x
L
(
x
,
λ
k
)
,
其
中
L
(
x
,
λ
)
定
义
如
上
式
3.
梯
度
上
升
法
更
新
λ
:
λ
k
+
1
=
λ
k
+
α
⋅
∂
L
(
x
,
λ
)
∂
λ
∣
x
=
x
k
+
1
,
λ
=
λ
k
1.假设\lambda^k为当前k轮迭代的对偶问题最优解\\ 2.求解x^{k+1}:x^{k+1}=arg\ min_x L(x,\lambda^k),其中L(x,\lambda)定义如上式\\ 3.梯度上升法更新\lambda:\lambda^{k+1}=\lambda^k +\alpha ·\left.\frac{\partial L(x, \lambda)}{\partial \lambda}\right|_{x=x^{k+1}, \lambda=\lambda^{k}}
1.假设λk为当前k轮迭代的对偶问题最优解2.求解xk+1:xk+1=arg minxL(x,λk),其中L(x,λ)定义如上式3.梯度上升法更新λ:λk+1=λk+α⋅∂λ∂L(x,λ)∣∣∣x=xk+1,λ=λk
Alternating Direction Minimizing(ADM)
交替方向最小化
ADMM(Alternating Direction Method of Multipliers)
https://blog.csdn.net/shanglianlm/article/details/46808793
ADMM是一个旨在将对偶上升法的可分解性和乘子法的上界收敛属性融合在一起的算法。
SVD分解(奇异值)&EVD分解(特征值)
https://www.cnblogs.com/endlesscoding/p/10033527.html
讲得 好清楚!!!
Sylvester equation
西尔维斯特方程,控制理论中的矩阵方程
定义
A X + X B = C AX+XB=C AX+XB=C
其中
A
、
B
及
C
A、B及C
A、B及C 是已知的矩阵,问题是要找出符合条件的
X
X
X 。其中所有矩阵的系数都是复数。为了要使方程成立,矩阵的行和列需要满足一定条件,
A
和
B
A和B
A和B 都要是方阵,大小分别是
n
和
m
n和m
n和m ,而
X
和
C
X和C
X和C要是
n
行
m
n行m
n行m 列的矩阵,
n
和
m
n和m
n和m 也可以相等,四个矩阵都是大小相同的方阵。
西尔维斯特方程有唯一解
X
X
X 的充分必要条件是
A
和
−
B
A和 -B
A和−B没有共同的特征值。
A
X
+
X
B
=
C
AX+XB=C
AX+XB=C 也可以视为是(可能无穷维中)巴拿赫空间中有界算子的方程。此情形下,唯一解X的充份必要条件几乎相同:唯一解
X
X
X 的充份必要条件是
A
和
−
B
A和-B
A和−B的谱互为不交集
解的存在及唯一
Roth消去规则
假设二个大小分别为
n
和
m
n和m
n和m的方阵
A
和
B
A和B
A和B,以及大小为
n
乘
m
n乘m
n乘m的矩阵
C
C
C,则可以确认以下二个大小为
n
+
m
n+m
n+m的方阵
[
A
C
0
B
]
和
[
A
0
0
B
]
\left[\begin{array}{ll}A & C \\0 & B\end{array}\right]和\left[\begin{array}{ll}A & 0 \\0 & B\end{array}\right]
[A0CB]和[A00B]是否彼此相似。这二个矩阵相似的条件是存在一矩阵
X
使
得
A
X
−
X
B
=
C
X使得AX-XB=C
X使得AX−XB=C,换句话说,
X
X
X为西尔维斯特方程的解,这称为Roth消去法则(Roth’s removal rule)。
可以用以下方式检查,若AX-XB=C,则
[
I
n
X
0
I
m
]
[
A
C
0
B
]
[
I
n
−
X
0
I
m
]
=
[
A
0
0
B
]
\left[\begin{array}{cc}I_{n} & X \\0 & I_{m}\end{array}\right]\left[\begin{array}{cc}A & C \\0 & B\end{array}\right]\left[\begin{array}{cc}I_{n} & -X \\0 & I_{m}\end{array}\right]=\left[\begin{array}{cc}A & 0 \\0 & B\end{array}\right]
[In0XIm][A0CB][In0−XIm]=[A00B]
Roth消去法则无法延伸到巴拿赫空间中的无穷维有界算子中
矩阵的求导
范数求偏导:https://blog.csdn.net/txwh0820/article/details/46392293
矩阵求导:https://zhuanlan.zhihu.com/p/24709748
迹求导1:https://www.cnblogs.com/Lxk0825/archive/2004/01/13/13987066.html