Multi-view Learning with Incomplete Views(IEEE TIP2015)
Chang Xu, Dacheng Tao, Chao Xu.
Peking University.
论文链接:https://ieeexplore.ieee.org/abstract/document/7297854
1 论文主要贡献
提出处理不完整视图的关键是利用多个视图之间的联系,本文假设从一个共享的子空间生成不同的视图,以便可以通过此子空间集成有关观察到的视图的信息,然后将其用于估计不完整的视图。研究了一种连续过度松弛(successive over-relaxation SOR)优化技术以解决由此产生的目标函数,并从理论上分析了其收敛性。
2 论文主要内容
2.1 Objective function
min
U
,
W
,
Z
1
2
∑
i
=
1
m
∣
∣
U
i
W
−
Z
i
∣
∣
F
2
s
.
t
.
P
O
i
(
Z
i
)
=
P
O
i
(
X
i
)
,
∀
i
∈
[
1
,
m
]
.
(1)
\min_{U,W,Z}\frac{1}{2}\sum_{i=1}^m||U_iW-Z_i||_F^2\\s.t.\ \mathcal{P}_{O_i}(Z_i)=\mathcal{P}_{O_i}(X_i), \; \forall i\in [1,m].\tag{1}
U,W,Zmin21i=1∑m∣∣UiW−Zi∣∣F2s.t. POi(Zi)=POi(Xi),∀i∈[1,m].(1)
Eq.
1
1
1中,
X
i
∈
R
D
i
∗
n
X_i\in\R^{D_i*n}
Xi∈RDi∗n为第
i
i
i 个视图的原始数据,
D
i
D_i
Di为第
i
i
i 个视图的特征维度;
Z
i
∈
R
D
i
∗
n
Z_i\in\R^{D_i*n}
Zi∈RDi∗n为第
i
i
i 个视图图补全后的数据;
O
i
∈
R
D
i
∗
n
O_i\in\R^{D_i*n}
Oi∈RDi∗n为第
i
i
i 个视图指示矩阵;
P
O
i
(
.
)
\mathcal{P}_{O_i}(.)
POi(.)表示矩阵在子空间上的投影;
Z
∈
R
D
∗
n
=
{
Z
1
,
.
.
.
,
Z
m
}
=
U
W
Z\in\R^{D*n}=\{Z_1,...,Z_m\}=UW
Z∈RD∗n={Z1,...,Zm}=UW,
U
∈
R
D
∗
r
U\in\R^{D*r}
U∈RD∗r为系数矩阵;
W
∈
R
r
∗
n
W\in\R^{r*n}
W∈Rr∗n是重构表达;约束
Z
i
Z_i
Zi是 low-rank.
—Note—
1) 关于
P
O
i
(
.
)
\mathcal{P}_{O_i}(.)
POi(.)文章中是这样解释的:
P O i ( . ) \mathcal{P}_{O_i}(.) POi(.) is the projection onto the subspaces of sparse matrices with nonzeros restricted to the index subset O i O_i Oi.
我个人的理解是:
O
i
∈
R
D
i
∗
n
O_i\in\R^{D_i*n}
Oi∈RDi∗n为第
i
i
i 个视图指示矩阵,用于指示第
i
i
i 个视图对应数据缺失与否;
P
O
i
(
Z
i
)
=
P
O
i
(
X
i
)
\mathcal{P}_{O_i}(Z_i)=\mathcal{P}_{O_i}(X_i)
POi(Zi)=POi(Xi)约束了当
X
i
j
v
X_{ij}^v
Xijv(第
v
v
v个视图下数据矩阵的元素
X
i
j
X_{ij}
Xij)不缺失时,对应的
Z
i
j
v
Z_{ij}^v
Zijv应当和
X
i
j
v
X_{ij}^v
Xijv相等;当
X
i
j
v
X_{ij}^v
Xijv(第
v
v
v个视图下数据矩阵的元素
X
i
j
X_{ij}
Xij)缺失时,对应
Z
i
j
v
Z_{ij}^v
Zijv没有约束。
2) 关于约束
Z
i
Z_i
Zi是 low-rank. 对于不完整数据的补全,我们首先考虑最简单的做法:复制其他样本或者用样本均值代替,这样得到的
Z
i
Z_i
Zi应当是low-rank. 从样本角度考虑,
n
n
n个样本中相似的样本应当有很多,相似样本的特征也应当相似,所以
Z
i
Z_i
Zi自然是low-rank的。本文约束
Z
Z
Z的秩不超过
r
r
r,在聚类任务中,就是聚成不超过
r
r
r类的结果。
和 multi-label learning 中的标签相关矩阵类似
S
∈
R
c
∗
c
S\in\R^{c*c}
S∈Rc∗c, where c is the number of labels. 标签之间也具有相关性,比如sky和cloud,所以
S
S
S也具有低秩性或局部相关性。
3) 本文考虑了两种incomplete情况。
i. missing variable:某个视图中矩阵元素缺失或者整个列缺失;
ii. missing view: 某个视图整体缺失或者某个视图中整列缺失情况比较多,这是仅用
P
O
i
(
Z
i
)
=
P
O
i
(
X
i
)
\mathcal{P}_{O_i}(Z_i)=\mathcal{P}_{O_i}(X_i)
POi(Zi)=POi(Xi)不能较好地补全原始缺失数据,此时representation矩阵
W
W
W 的作用很大,矩阵
W
W
W 将views联系起来。
2.2 Optimization (SOR)
这部分我没看懂,数学能力要求比较高,我就简单从论文里搬运一下,欢迎不吝指教~
采用交替优化的策略可以求解 Eq.
1
1
1,但对于大型数据矩阵而言,alternating minimization 效率不高。为了实现更快的收敛,本文研究了一种 successive over-relaxation 方法来更新目标变量。
SOR 方法是 Gauss-Seidel 方法 [D. M. Strong, “Iterative methods for solving ax= b,” AMC, vol. 10, p. 12, 2003.] 的概括和改进。SOR 的思想是在搜索时,采用
W
k
+
1
=
W
k
+
λ
(
W
k
+
1
−
W
k
)
,
λ
>
1
W^{k+1}=W^k+\lambda(W^{k+1}-W^{k}),\lambda>1
Wk+1=Wk+λ(Wk+1−Wk),λ>1,若
λ
=
1
\lambda=1
λ=1 就退化成 Gauss-Seidel 方法。
优化算法如图所示:Problem (2) 即 Eq.
1
1
1.
2.3 实验
作者在clustering, regression, classification都做了实验,详情请阅读文章。
2.4 总结
在本文中,我们研究了多视图学习中的不完整视图问题,其中可能在某些视图上部分观察到一个样本。利用多个视图之间的联系是处理不完整视图的关键解决方案,而不是遗漏不完整视图或用平均信息填充它们。通过假定从共享子空间生成了不同的视图,可以通过整合来自其他观察到的视图的信息,通过该子空间来估计不完整的视图。最终的目标函数可以通过连续过度松弛方法有效地求解,其收敛性已在理论上进行了分析。在 toy data 和真实数据集上进行的综合实验证明了研究不完整视图问题的重要性以及所提出算法的有效性。