“Multiview Clustering by Consensus Spectral Rotation Fusion” 通过共识谱旋转融合进行多视图聚类
摘要:多视图聚类(MVC)旨在通过充分利用多个视图的互补信息将数据划分为不同的组。大多数现有的MVC方法在原始数据级别融合多个视图的信息。由于原始数据中包含冗余信息,它们可能会遭受性能下降的影响。基于图学习的方法通常严重依赖于一种特定的图构造,这限制了它们的实际应用。此外,由于每次迭代计算的矩阵求逆或特征值分解,它们通常需要 O(n3) 的计算复杂度。
在本文中,我们提出了一种共识谱旋转融合(CSRF)方法,用于在谱嵌入特征级别学习 MVC 的融合亲和力矩阵。具体来说,我们首先引入 CSRF 模型来学习共识低维嵌入,该模型探索多个视图之间的互补和一致信息。我们开发了一种交替迭代优化算法来解决 CSRF 优化问题,其中每次迭代计算期间需要 O(n2) 的计算复杂度。然后,引入稀疏策略设计两种不同的图构建方案,并与CSRF模型有效集成。最后,根据光谱嵌入空间中的一致低维嵌入构造多视图融合亲和力矩阵。我们分析了交替迭代优化算法的收敛性,并为不完整的 MVC 提供了 CSRF 的扩展。在多视图数据集上的大量实验证明了所提出的 CSRF 方法的有效性和效率。
索引术语——多视图聚类、谱嵌入、谱旋转、图学习。
Index Terms—Multiview clustering, spectral embedding, spectral rotation, graph learning.
“I. INTRODUCTION” 一、简介
随着信息技术的发展,各种电子设备不断生成数据或通过多种特征描述数据[1],[2]。例如,移动物体的轨迹可以被各种监控摄像机同时捕获[3],并且图像可以通过多种特征来描述,例如颜色、纹理和边缘[4]、[5]。此类数据被视为多视图数据。多视图聚类(MVC)旨在使用多个特征信息将数据样本聚类成几个不同的组。这提供了一种自然的方式来揭示多视图数据的底层结构。
与单视图数据相比,多视图数据通常为数据分析提供补充信息[6]-[9]。多视图数据聚类的关键问题在于有效捕获多个视图之间一致且互补的信息。一致的信息在各个视图之间传达多视图数据的相同语义知识。补充信息提供跨多个视图的多视图数据的补充语义知识。因此,多视图数据中包含的信息可以进一步提高传统聚类方法的性能。
近年来,人们提出了许多MVC方法,包括基于子空间学习的方法[10][18]、基于非负矩阵分解(NMF)的方法[19]、[20]、基于图学习的方法[21] ]–[26],多个基于核的方法[27],[28]和基于深度学习的方法[29]–[32]。例如,陈等人[11]提出了一种多视图低秩表示(MLRR)算法来发现多视图数据的多个子空间结构。胡等人[20]提出了一种双重对齐的 MVC 方法,将 l2,1-范数正则化回归集成到加权 semiNMF 中,以学习所有视图的公共潜在特征矩阵。这些算法通常构建用于谱聚类的融合相似度矩阵,或学习跨多个视图的 k-均值算法的一致表示。因此,这些算法可以被视为谱聚类算法[33]或k-means算法[34]的预处理步骤。杨等人[21]提出了一种多视图谱聚类方法,该方法对多视图图中的互补信息和相应邻接矩阵的低秩空间结构进行编码。
然而,由于多个视图中原始特征的类型不同,跨多个视图的各个相似度矩阵中的元素值的大小显着不同。融合相似度矩阵或共识表示中不可避免地包含冗余信息。因此,当在原始数据级别构建共识表示时,捕获多个视图之间的互补信息可能会成为一个棘手的问题[11],[20],[21]。
MVC本质上是一个融合多个视图的内在特征信息的任务。已经提出了几种基于图学习的 MVC 方法来对光谱嵌入空间中的多视图数据进行聚类[22]、[26]、[35]-[39]。这些方法将谱嵌入特征视为多视图的内在特征。例如,提出了一种结合谱嵌入和 k 均值的统一单步 MVC 框架,以通过一步策略获得离散聚类标签[35]。该框架通过连接原始特征,将多个图和相应的光谱嵌入矩阵集成到一个统一的图中。提出了一种共识图学习(CGL)方法,从由个体相似性图构建的多个光谱嵌入矩阵中学习亲和力矩阵[22]。 CGL方法在光谱嵌入空间中构建亲和力矩阵。因此,可以采用谱嵌入的各种信息融合策略来实现不同的信息融合结果[22],[35]。
尽管上述 MVC 方法取得了令人印象深刻的结果,但它们仍然存在一些缺点。
例如,当在原始数据级别进行信息融合时,共识表示的冗余信息可能会对捕获补充信息产生显着的负面影响[11],[26],[40]。许多现有的 MVC 方法在迭代计算期间需要拉普拉斯矩阵的矩阵求逆或特征值分解。对于大小为 n × n 的矩阵,矩阵求逆或特征值分解的计算复杂度为 O(n3)。因此,这通常限制了它们的实际应用。
此外,一些基于图学习的方法探索了哪些类型的图构造适合其多视图信息融合策略。这些方法通常选择一种有利于其信息融合模型的现有图结构作为单独的预处理步骤,但该过程缺乏理论分析[27]、[35]、[40]。这些缺点大大增加了跨多个视图捕获互补信息的难度。这激励我们在谱嵌入特征级别实现多视图的信息融合。
在本文中,我们提出了一种共识谱旋转融合(CSRF)方法来学习 MVC 的融合亲和力矩阵。具体来说,我们首先提出一个 CSRF 模型来学习共识低维嵌入。与大多数现有的 MVC 方法相比,CSRF 模型利用光谱旋转信息将多个视图的各个光谱嵌入图融合成光谱嵌入特征级别的一致低维嵌入。它减少了各个光谱嵌入图之间的冗余信息。同时,它还探索多个视图中互补且一致的信息。然后,我们提出了一种交替迭代优化算法来解决 CSRF 优化问题。与现有MVC方法的O(n3)复杂度相比,该方法在迭代计算过程中的计算复杂度为O(n2)。接下来,我们引入稀疏策略来设计两种不同的图构建方案并将其与CSRF模型集成。这意味着 CSRF 模型独立于特定的图构建方案。我们将共识谱嵌入视为多视图的内在特征。多个视图的融合亲和力矩阵是根据图构建方案的共识低维嵌入构建的。我们对融合亲和力矩阵应用谱聚类以获得最终的聚类结果。最后,我们提供了交替迭代优化算法的收敛性分析、CSRF 的理论解释以及针对不完全 MVC(IMVC)的 CSRF 方法的扩展。
本文的主要贡献总结如下:
• 提出CSRF模型来学习谱嵌入特征级别的共识低维嵌入,并探索多个视图之间的互补和一致信息。
• 提出了一种交替迭代优化算法来解决CSRF模型中的优化问题,其中每次迭代需要O(n2) 的计算复杂度。
• 引入稀疏策略来设计两种不同的图构建方案并将其与CSRF模型集成。
• 对基准数据集的大量实验表明,所提出的 CSRF 方法比最先进的 MVC 方法取得了相当大的改进。
本文的其余部分安排如下。第二部分简要回顾了频谱嵌入和 MVC 技术。第三节介绍了所提议的 CSRF 方法。实验结果在第四节中给出。最后,我们在第五节中总结本文。
“II. RELATED WORK” 二.相关工作
在本节中,我们简要回顾与所提出的方法相关的三项工作;这些工作结合了谱嵌入、传统谱旋转和基于图学习的 MVC 技术。表一总结了整篇论文中使用的符号。
“A. Spectral Embedding” A. 谱嵌入
设 X = [x1, x2, ..., xn] ∈ Rd×n 为矩阵,其中 xi ∈ Rd (1 ≤ i ≤ n) 表示样本。采用亲和度矩阵 W ∈ Rn×n 来衡量样本之间的相似度。例如,Wij 表示样本xi和xj之间的相似度。矩阵 D = diag [d1, d2, ..., dn] 的度由亲和度矩阵 W 导出,其对角线元素定义为
归一化图拉普拉斯矩阵 L ∈ Rd×n 为 [41]
假设样本可以分为k个簇。谱聚类方法的目标是使用矩阵的主特征向量(例如亲和矩阵或拉普拉斯矩阵[42])找到低维嵌入。例如,归一化切割 (NCut) 的松弛目标函数可以写如下:
其中H ∈ Rn×k 是聚类指标矩阵[33]。
详见 A tutorial on spectral clustering 5.3
聚类结果可以通过对H*应用k-means来获得,其中H*是问题(3)的最优解。
亲和力矩阵的构建对于提高谱聚类的性能至关重要。聂等人 [43]提出了一种自适应邻居图学习(ANGL)方法来学习亲和力矩阵。 ANGL方法的目标函数可以表述如下:
//xi和xj之间连通,则添加两者距离
其中β是惩罚参数,Zi是Z的第i列,Zij表示数据样本xi和xj之间的连通概率。 ANGL使用代表邻域数量的参数r作为良好的代理来正则化参数β;即,
问题(4)有一个封闭式解:
其中 Wij = ∥xi − xj∥22 [43]。
“B. Traditional Spectral Rotation” B. 传统光谱旋转
给定任意正交矩阵 R ∈ Rk×k,即 RTR = RRT = Ik,以下等式始终成立:
这里R被视为旋转矩阵[36]。这意味着H*R也是问题(3)的最优解。
谱旋转是一种从特征向量中寻找最佳二元矩阵的算法[36]、[38]。
具体来说,谱旋转的目标函数可以写为:
其中Y ∈ Rn×k 是二元聚类指示矩阵[36],[38]。谱旋转提供了连续解的离散解的近似。
“C. MVC Techniques” C.MVC 技术
给定一组具有 n 个样本、nv 个视图和 k 个聚类的多视图数据 {X(v) ∈ Rdv×n}nv v=1,X(v) 是来自多视图数据的第 v 个视图的特征矩阵。每个视图X(v) 共有n个样本特征;即,X(v) = [X1(v) , X2(v) ,…,Xn(v) ] ,其中 Xi(v) (1 ≤ i ≤ n) 是 dv 维列向量。 MVC 的目标是通过整合所有 nv 视图将 n 个样本划分为 k 个簇。
基于图学习的 MVC 方法旨在学习多个视图之间的共识图 [25]、[26]。
例如,提出了一种多视图共识图聚类(MCGC)方法来学习共识图,同时最小化不同视图之间的分歧并限制拉普拉斯矩阵的秩[26]。令 L(v) 为归一化拉普拉斯矩阵,H(v) 为第 v 个视图的相应谱嵌入矩阵。 MCGC模型可以表述如下:
其中 λ 是一个权衡参数,共识图 S 代表不同观点下 H(v) H(v) T 的最佳近似。 H(v) 的初始化对MCGC模型的影响值得进一步研究。
一种可扩展且无参数的 MVC 图融合模型被提出,以寻求跨多个视图的结构化最佳联合图 [44]。图融合框架表述为
其中 α(v) (1 ≤ v ≤ nv) 是加权参数,B(v) ∈ Rn×m 是第 v 个视图的亲和度矩阵,B ∈ Rn×m 是联合亲和度矩阵。
//(10)项与(9)第二项的对比,直接利用加权函数α(v)的选取来达到(9)第一项的效果。
从谱嵌入的角度来看,MVC 的主要挑战是学习一致的低维嵌入来探索多个视图之间的互补信息。
“III. CONSENSUS SPECTRAL ROTATION FUSION FOR MVC” 三. MVC 的共识光谱旋转融合
在本节中,我们首先介绍 CSRF 方法来学习 MVC 的融合亲和力矩阵。然后,我们解释 CSRF 在理论上是如何工作的,这说明了所提出的 CSRF 方法的理论动机。最后,我们提出了 IMVC 的 CSRF 方法的扩展。
“A. Consensus Spectral Rotation Fusion” A. 共识谱旋转融合CSRF
我们在多个图的归一化拉普拉斯矩阵上引入谱旋转,以学习多个视图共享的一致谱嵌入。
???
具体来说,我们利用从多视图数据集 {X(v)}nv v=1 导出的多视图的单独光谱嵌入矩阵 {H(v)}nv v=1 来构建 CSRF 模型,该模型能够发现共识低维嵌入从多个视图捕获互补信息。
共识的低维嵌入 F ∈ Rn×k 可以从多个视图 {H(v)}nv v=1 的独立谱嵌入图获得。考虑多视图 {H(v)}nv v=1 的各个谱嵌入图,CSRF 模型的目标函数表述为:
//显然,主要的改进在第二项
其中α是权衡参数,γ(v)是指示第v个视图的重要性的加权参数,L(v)是第v个视图的图拉普拉斯矩阵。
从问题(11)中可以看出,第一部分是由多个谱嵌入结构组成的聚合项,第二部分是谱旋转项。
在谱聚类算法[41]中,通常采用聚合项来获得聚类指标矩阵。相反,我们认为 {H(v)}nv v=1 是 CSRF 模型中多视图的内在特征。谱旋转项鼓励一致的谱嵌入 F 通过多个视图的不同贡献来接近多个光谱嵌入图。采用各个谱嵌入矩阵的自适应权重因子 γ(v) 来评估不同视图的重要性。谱旋转项中包含的旋转矩阵将在下面的理论分析中讨论。一致谱嵌入F被视为从原始特征空间到低维谱嵌入空间的映射结果。例如,有一个从第 i 个数据样本的特征到低维谱嵌入 Fi 的映射:
其中 Fi 表示 F 的第 i 行。因此,映射保留了多个视图中数据样本的内在结构。
1.我们利用低维谱嵌入空间而不是跨多个视图的原始特征空间。数据样本的局部性可以保留在低维谱嵌入空间中。多视图的信息融合是在谱嵌入特征级别进行的。2.同时,CSRF 模型采用权重因子来确定如何在各个视图中使用不同频谱嵌入图的判别信息。因此,这两个方面共同作用以减少各个频谱嵌入图之间的冗余信息。
“B. Optimization” B、优化
我们提出了一种可替代的优化算法来解决问题(11)。具体来说,迭代更新变量F、{H(v)}nv v=1 和{γ(v)}nv v=1 ,而其他变量保持固定,直到算法收敛。
我们首先更新问题(11)中的变量F。当{H(v)}nv v=1 且{γ(v)}nv v=1 固定时,问题(11)可重写为
根据定理1[38],我们可以得到问题(12)的封闭式解,即
其中H = Σnvv=1 γ(v)H(v),U和V分别为矩阵H的经济奇异值分解(SVD)的左奇异矩阵和右奇异矩阵,即H = UΣVT 。
“Theorem 1 [38]” 定理1 [38]
给定两个矩阵 R ∈ Rm×n 和 M ∈ Rm×n,约束问题
有一个封闭式解
其中 M 的经济 SVD 为 M = UΣVT 。
//(12)中,M = Σnvv=1 γ(v)H(v)
然后,我们通过固定其他变量来更新 H(v)。 H(v) 的优化问题可以简化为
这个问题可以简化为以下形式:
// Lx = λx ---> λmax
其中 λ(v) max 是 L(v) 的最大特征值。
问题(15)中H(v)的最优解可以通过广义幂迭代法[45]得到,迭代求解以下优化问题:
其中 M(v) = (λmax(v)In- L(v))Ht(v) + αγ(v)F 并初始化 H(v)。让
是问题(16)的最优目标值objective value。收敛条件为
其中 t 表示第 t 次迭代,ε = 0.1。整个优化过程总结在算法1中。
//输入:数据矩阵 {H(v)}nv v=1 ,{L(v)}nv v=1 , {λmax(v)}nv v=1 和 F ,参数α > 0 和 {γ(v)}nv v=1
1.初始化:ε = 0.1 , t = 0 和 tmax = 3
2. for v=1 to nv do:
3. Ht(v) = H(v)
while 未收敛 or t < tmax:
M(v) = (λmax(v)In- L(v))Ht(v) + αγ(v)F
for v=1 to nv do:
用定理1更新(16)中的Ht+1(v)
end for
t += 1
if t>1 :
使用(18)确定收敛条件
end if
end while
end for
输出:{Ht(v)}nv v=1
最后,当其他变量固定时,我们更新 γ(v)。 γ(v) 的优化问题可以表述为
通过设置问题(19)中拉格朗日函数对γ(v)的偏导数,我们可以获得γ(v)的封闭解[28]。
L(v) = tr(FTγ(v)H(v)) - 1/2 (1-(γ(v))2)
dL(v)/dγ(v)=tr(FTH(v)) - γ(v)= 0
问题(19)的最优解由下式给出
让
是问题(11)的最优目标值objective value。收敛条件为
其中 t 表示第 t 次迭代,ε = 1e−3。算法2总结了解决问题(11)的整个优化过程。
//输入:数据矩阵 X = {X(v)}nv v=1 , {H(v)}nv v=1 ,{L(v)}nv v=1 , ,参数α > 0
1.初始化:ε = 10-3 , t = 0 和 tmax = 500
2. for v=1 to nv do:
3. γt(v) = 1/nv
end for
while 未收敛 or t < tmax:
用(13)更新Ft+1
for v=1 to nv do:
用算法1更新Ht+1(v)
end for
for v=1 to nv do:
用(20)更新 γt+1(v)
end for
t += 1
if t>1 :
使用(22)确定收敛条件
end if
end while
输出:F
“C. Graph Construction” C. 图构建
给定一组多视图数据{X(v)}nv v=1,需要在亲和力矩阵{Z(v)}nv v=1上初始化{L(v)}nv v=1和{H(v)}nv v=1 。学习每个视图的亲和力矩阵的图构建对于 CSRF 具有重要意义。因此,我们探讨什么样的图构建方式有望整合CSRF模型。
在每个单独的亲和力矩阵 Z(v) 中,每个元素测量两个数据样本的相应特征之间的关系。稀疏编码通过从过完备字典中选择的少量原子的线性组合来实现数据向量的稀疏近似[46]。稀疏编码的判别性促使我们从稀疏性的角度寻找数据样本之间的关系。
为了保持亲和矩阵的每个元素接近另一个亲和矩阵的相应元素,我们引入了稀疏策略来确定亲和矩阵 Z(v) 。具体来说,稀疏策略遵循的原则是选择一小部分数据样本作为邻居,这使得 Z(v) 稀疏。多视图数据通常在各个数据样本的实例之间提供一致的信息。图形构建是在每个视图上单独执行的。因此,不同视图生成的亲和度矩阵往往是近似的。
根据稀疏性策略,我们考虑两种 CSRF 的图构建方案。
在第一个图构造方案中,我们采用ANGL方法来解决X(v)的问题(5)[43]。因此,可以获得 X(v) 的每个单独的亲和力矩阵 Z(v) 。
在另一个替代方案中,我们利用数据样本的自我表达特性来获得继我们之前的工作之后的协作表示[47]。
具体来说,协作表示可以由下获得:
其中 λ 是一个权衡参数。对于 W(v) 中的每个归一化列向量 Wi(v) (1 ≤ i ≤ n),我们使用单纯形算法 [48] 上的欧几里得投影来解决以下优化问题:
其中 Wij(v) 是 Wi(v) 的第 j 个元素。这通常会产生保证稀疏性的 Z(v)。这两种方案利用数据样本的局部或全局结构来构建图。
获得Z(v)后,每个归一化图拉普拉斯矩阵L(v)被初始化为
其中 Q(v) =diag [ q1(v) , q2(v) , ..., qn(v)] ∈ Rn×n 是度矩阵,即 qi(v)= Σn j=1 Zij(v) 。接下来,每个H(v) 被初始化为L(v) 的归一化谱嵌入,即对应于L(v) 的k个最小特征值的k个归一化特征向量。最后,我们可以使用算法2获得一致的低维嵌入F。
所提出的CSRF方法通过CSRF将多视图数据的多个图转移到单个图。正如前面的分析一样,一致的谱嵌入F是原始特征的映射结果,即多视图的内在特征。它可以用来发现数据样本的相关性而不是原始特征。结合第一种图构造方案,类似于问题(4)的新目标函数可以写为
其中 β 是调整参数,fi 是 F 的第 i 行。多视图的融合亲和力矩阵 W 是根据光谱嵌入空间中的 F 构造的。考虑到其他图构造方案,W也可以通过将协作表示和欧几里德投影结合到单纯形算法上来获得,这与计算Z(v)类似。为了简单起见,算法 3 总结了所提出的 CSRF 方法涉及第一个图构建方案的整体过程。
//输入:数据矩阵 X = {X(v)}nv v=1 , 聚类数量k , 邻域的数量r ,参数α > 0
1./* r 由等式(4)和(26)共享/
2. for v=1 to nv do:
3. 通过等式(4)计算X(v)的每个亲和矩阵Z(v)
4. 使用(25)计算L(v)
5.利用L(v)的归一化嵌入计算H(v)
6.计算L(v)的最大特征值λmax(v)
end for
使用算法2解决问题(11)并获得优化解F
用式子(26)计算W
在NCuts算法[33]中应用W,并获得X的k个聚类
输出:k个聚类
“D. Theoretical Analysis” D、理论分析
1) Convergence Analysis 收敛性分析:
我们首先估计算法1的收敛条件。算法1的收敛性由定理2证明。
“Theorem 2” 定理2
在算法1中,随着t增加到3,问题(16)的目标值将单调递减直至收敛。
“Proof” 证明
当 t = 1 时,我们有 M1(v) = (λmax(v)In- L(v))H0(v) + αγ(v)F ,其中H0(v)的初始化是已知的。根据定理1,问题(11)中H(v)的最优解为
其中 M1(v) 的经济 SVD 为 M1(v) = U1Σ1V1T 。
当t=2时,问题(11)中 H(v) 的最优解为
其中 M2(v) = (λmax(v)In- L(v))H1(v) + αγ(v)F 并且 M2(v) 的经济 SVD 为 M2(v) = U2Σ2V2T 。考虑问题(16)的客观值(目标最优值),我们得到f(H2(v)) 的最大化;即
其中 N(v) = λmax(v)In- L(v),因此,如果V2=V1且U2=U1,则f(H2(v)) 达到最大值。
一般来说,我们有
其中 σi 是 Σ 的第 i 个对角元素。这表明 f(H(v)) 的上限为 Σk i=1σi。因此,当 t > 2 时,如果 Vt = Vt−1 且 Ut = Ut−1,则 f(Ht(v)) 保持不变。因此,当 t = 3 时,满足 (16) 中的收敛条件。
在算法2中,第一次迭代后H0(v) 的初始化为 H(v)= UVT。因此,算法 2 中第一次迭代后 t 减少为 2。
然后,我们讨论算法2中的收敛条件。问题(11)可以分为三个子问题,每个子问题在每次迭代中都有一个最优解。与问题(16)类似,问题(11)的目标值有一个特定的下界。因此,算法2至少可以找到局部最优解。
2) Computational Complexity Analysis:” 计算复杂度分析:
所提出的 CSRF 方法的计算复杂度由算法 3 中的两部分组成,即计算 L(v) 的预处理步骤和算法 2 中的替代优化过程。 在预处理步骤中,L(v) 特征值分解的计算成本为 O(n3)。此外,算法2中存在连续的三个步骤。在第一步中,U和VT的矩阵乘法以及H的SVD的计算复杂度为O(nk2) 。求解问题(12)的总计算复杂度为O(nk2) 。类似地,算法2的第二步的计算复杂度为O(3(n2k+nk2))。最后一步计算γ(v)的计算复杂度为O(n2k)。算法3的整体计算复杂度为O(nv (n3 + tn2k)) ,其中t为算法2的迭代次数。如果实际中nv < n且k < n ,则算法3的最终计算复杂度为O(n3 + tn2) 。
3) Effectiveness of Consensus Spectral Rotation Fusion:” 共识光谱旋转融合的有效性:
根据算法 1,我们有
其中 M(v) = U(v) Σ(v) (V(v))T 且 V(v) 是正交矩阵;即 V(v)(V(v))T = (V(v))T V(v) = Ik。假设 {H(v)}nv v=1 和 {γ(v)}nv v=1 已知,我们考虑问题(11)的第二部分:
问题(28)等价于以下问题:
问题(29)可以重写为以下形式:
在问题(30)中,U(v)被视为第v个视图的谱嵌入,V(v) 是相应的旋转矩阵。这里,V(v) 是正交矩阵,对应于问题(7)中的R。特别地,问题(7)中的H*表示谱向量,而问题(30)中的 U(v) 表示谱嵌入。从谱旋转的角度来看,V(v) 在迭代过程中通过正交约束传输多个逼近 F 的谱嵌入矩阵。在问题(30)中,γ(v) 用于在学习阶段自动确定每个视图的重要性。因此,F是一个融合的光谱嵌入结果,它利用光谱嵌入的旋转不变性,有效地平衡了多个视图的光谱嵌入矩阵。这解释了为什么问题(11)中的第二部分被称为谱旋转项。
4) An Extension to Incomplete Multiview Clustering (IMVC) 不完全多视图聚类 (IMVC) 的扩展:
在实际应用中,由于各种原因,例如数据采集设备的临时故障或数据采集成本高昂等,样本的某些特征常常在相应的视图中缺失[27],[40]。这导致多视图数据中的信息丢失,称为不完整的多视图数据。假定缺失的特征已被破坏。这使得恢复丢失的功能几乎不可能。幸运的是,多个视图提供的补充信息弥补了信息损失。
考虑多视图数据集{X(v)}nv v=1 ,各个视图中可能缺少许多特征。如何有效地对不完整的多视图数据进行聚类可以很好地表示为 IMVC 问题[49]、[50]。令 Nv 为第 v 个视图中可用特征的剩余数量。我们通过以下方式定义现有的特征指示向量 S(v) ∈ RNv
其中 s i (v)= j(v) (1 ≤ j(v) ≤ n), j(v) 表示第 v 个视图中现有特征的索引。
为简单起见,如果缺少相应的特征,我们会从每个视图中删除所有向量。然后,多视图数据的剩余部分可以由{XS(v)∈ Rdv x Nv }nv v=1 来表示。
XS(v) 的每个单独的亲和力矩阵 W(v) ∈ RNv×Nv 可以在第一个图收缩方案中获得。我们采用ANGL方法来解决XS(v) 的问题(5)。
假设Z(v) ∈ Rn×n 表示第v个不完全视图中的亲和力矩阵,其中所有条目都用零填充。然后,将W(v)的所有条目填充到Z(v) 的对应条目中;即 Z(v) (S(v), S(v)) = W(v)。类似地,我们也可以应用相同的策略在其他图收缩方案中获得Z(v)。显然,在不完整的多视图数据上构建亲和矩阵得益于稀疏策略。这意味着所提出的CSRF方法的聚类结果在不完整多视图数据的缺失率相对较低的情况下保持稳定。最后,可以使用谱嵌入技术从 Z(v) 构造图拉普拉斯矩阵 {L(v)}nv v=1 和各个谱嵌入图 {H(v)}nv v=1 。
“E. Comparison of Graph Learning-based MVC Techniques” E. 基于图学习的 MVC 技术比较
人们开发了许多基于图学习的 MVC 方法来探索多视图数据的底层结构。
例如,统一的一步多视图谱聚类(UOMSC)方法将两个不同级别的图结构结合在一个统一的框架中[35]。这两个图结构是根据原始数据和光谱嵌入特征构建的。严格来说,UOMSC 方法通常执行多视图谱聚类,涉及用于初始化图结构的额外预处理步骤。
共识一步多视图子空间聚类(COMVSC)方法利用数据样本的自表示特性,通过图正则化项来恢复数据样本的底层子空间结构[14]。由于每次迭代中的矩阵求逆和 SVD,COMVSC 方法的计算复杂度为 O(n3)。
MCGC 方法尝试寻求 {H(v)(H(v))T}nv v=1 的最佳近似来学习共识图,该图包含精确数量的连接组件。
平稳扩散状态神经估计(SDSNE)方法提出了一种图神经网络模型,通过共享的自注意力模块将多个图集成为统一的共识图[29]。视图共享自注意力模块利用多个视图的图结构来学习视图一致的全局图。
因此,主要区别在于这些多视图和所提出的CSRF方法之间采用了不同的对多视图图结构的信息融合策略。与这些方法相比,所提出的 CSRF 方法中的光谱旋转融合是在光谱嵌入特征级别执行的。它并不严格依赖于特定的图构建方法。此外,所提出的 CSRF 方法中的信息融合策略(称为谱旋转融合)尚未被现有的基于图学习的 MVC 方法所利用。
“IV. EXPERIMENTS” 四.实验
在本节中,我们进行了一系列实验来评估所提出的方法在六个公开数据集上的性能。实验在 MATLAB 2021b 中实现。我们方法的 MATLAB 源代码可在线获取1。所有实验均在具有 Intel i7-10700F CPU 和 32 GB RAM 的 Windows 10 平台上进行。
1https://codeocean.com/capsule/6655716/tree/v1
“A. Experiment Settings” A. 实验设置
1) Datasets 数据集:
采用六个基准数据集来评估所提出的方法。数据集的统计数据列于表二中。
// 数据集 聚类 视图 数据样本 维度
数据集的描述总结如下。
• MSRC-v12:该数据集包含210个属于 7 个类别的场景识别图像。每个图像由五个不同的特征表示。
2https://www.microsoft.com/en-us/research/project/image-understanding/
• Outdoor Scene (O-Scene) Dataset [51]: 该数据集包含2688张图像,由8个类别组成。对于每个图像,我们提取四个不同的特征向量。
• Handwritten Dataset [52]: 该数据集由2,000 张十个手写数字(0-9)的图像组成,每个数字由六个不同的特征表示。
• Flower17 Dataset [53]: 该数据集包括17 个不同的花卉类别,每个类别有80 张图像。每个图像由七个视图表示。
• COIL-20 Dataset [54]:该数据集包含20 个物体的1,440 张图像。每个图像由三个不同的特征表示。
• Caltech-101 Dataset [55]: 该数据集由属于101 个类别的8,677 个物体图像组成,其中我们删除了背景类别。每个对象大约有 30-800 张图像。
2) Comparison Methods 比较方法:
我们将所提出的 CSRF 方法与几种最先进的 MVC 方法进行比较,包括 MCGC [26]、efficient and effective IMVC (EE-IMVC) [27]、基于自适应图补全 (AGC) 的不完全多视图聚类 [24] 、广义 IMVC (GIMC) [25]、高阶相关保留 MVC (HCPMC) [40] 和 UOMSC [35]。竞争算法的源代码由其作者提供。
此外,我们还考虑了两种特殊的变体进行比较。这些变体采用 ANGL 方法生成的亲和力矩阵,并且与所提出的方法类似。
具体来说,我们首先对每个单视图进行谱聚类,并报告多个视图中的最佳结果,即最佳单视图(BSV)方法。然后,我们将所有亲和力矩阵 {Z(v)}nv v=1 聚合成累积亲和力矩阵,以验证 MVC 的基于谱嵌入的 CSRF 融合(即 CSRFAgg)的有效性。对累积的亲和力矩阵应用标准谱聚类方法以获得聚类结果。对于不完整的多视图数据,缺失的实例由 COMVSC 填充零,而亲和力矩阵的缺失条目由 UOMSC 填充零。
3) Evaluation Metrics 评估指标:
采用广泛使用的聚类精度(ACC)、归一化互信息(NMI)和纯度指标来评估聚类性能。这些指标的具体定义在我们之前的工作中给出[56]。这些指标的值越高表明实验中的聚类性能越好。
4) Parameter Settings 参数设置:
对于所有数据集,我们假设簇的数量 k 是已知的。该方法包含两个参数,即α和r,其中r表示ANGL方法中最近邻域的数量。参数α在{0.1,0.5,1,5,10,50}的范围内调整,而参数r设置为r∈[5:5:80]。我们在实验中使用网格搜索策略搜索 α 和 r 的每个组合以找到最佳聚类结果。对于竞争算法,我们手动调整其参数以达到最佳结果。此外,我们将每个实验重复10次,以减少k-means带来的随机性的不利影响。报告所有竞争算法的平均聚类结果和标准偏差。最佳和第二最佳平均聚类结果分别以粗体和下划线显示。
对于实验中的缺失率,我们从每个视图中随机删除一定比例的特征。每个视图的缺失率在 0.1 到 0.3 之间变化,间隔为 0.1。例如,缺失率为 0.1 表示每个视图中随机丢弃 10% 的特征。特别地,每个样本在相应视图中至少保留一个特征,或者被认为是异常值。为了公平比较,我们准备一个随机种子来生成人工不完整的多视图数据。
“B. Performance Evaluation” B. 绩效评估
我们评估了所提出的方法在六个多视图数据集上的性能。 ACC、NMI 和 F-measure 的平均聚类结果与各种缺失率及其标准差列于表 III。
我们观察到,所提出的 CSRF 方法在 ACC、NMI 和 F-measure 方面几乎始终优于竞争方法。例如,就 ACC 而言,缺失率为 0 时CSRF 在 MSRC-v1、O-Scene、Flower17、COIL-20 和 Caltech-101 数据集上分别显着提高了5.71%、0.78%、2.26%、7.29% 和 1.44%。与UOMSC的ACC结果相比,CSRF在手写数据集上取得了相似的结果。手写数据集中的特征包含环境空间中不同的子空间结构。 UOMSC有效增强了特征上相似图的块对角结构。此外,在其他两个指标方面也观察到了所提出的 CSRF 方法的类似优点。这些结果证明CSRF模型的有效性。主要原因是所提出的CSRF方法获得的一致低维嵌入反映了多视图数据中隐含的数据样本的内在结构。
考虑到不同的缺失率 [0.1,0.2,0.3],CSRF 的表现始终优于第二佳方法。例如,在 MSRC-v1 数据集上,CSRF 获得的结果比 ACC 的第二好结果分别好约 4.29%、1.9% 和 0.19%,对应不同的缺失率分别为 0.1、0.2 和 0.3。同样,与 MSRC-v1 数据集上的竞争方法相比,CSRF 在其他两个指标方面也显示出优势。这表明了CSRF对于IMVC的扩展的有效性。此外,缺失率的增加对初始化个体图拉普拉斯矩阵 {L(v)}nv v=1 的信息完整性有显着的负面影响。我们可以看到,在 MSRC-v1、O-Scene 和 Flower17 数据集上,与 CSRFAgg 相比,随着缺失率从 0.1 增加到 0.3,CSRF 取得的改进逐渐缩小。然而,随着其他数据集(例如 Handwriting、COIL-20 和 Caltech-101 数据集)上的缺失率从 0.1 增加到 0.3,所提出的 CSRF 方法和 CSRFAgg 的聚类性能差异明显很大。此外,所提出的CSRF方法的聚类性能在不同缺失率下的Caltech-101数据集上保持相对稳定。
CSRFAgg 和 BSV 是两种用于比较的基线方法。如表 III 所示,CSRFAgg 在除手写数据集之外的所有数据集上的聚类性能都大大优于 BSV。而且,随着缺失率的逐渐增加,聚类性能的差距也随之增大。这表明如果仅考虑单个视图,聚类性能是有限的。这验证了多个视图之间的信息互补有效提高了聚类性能,这符合我们的预期。此外,在一些实验中,CSRFAgg 通常可以达到与竞争方法相当或更好的聚类结果。例如,CSRFAgg 在 COIL-20 数据集上的 ACC 方面优于除 CSRF 之外的所有竞争对手。实验中的聚类结果反映了多视图数据信息融合策略的重要性。我们还看到,所提出的 CSRF 方法比两种基线方法一致且显着地提高了聚类性能。这证明了我们提出的方法的优越性。
为了直观地说明使用我们提出的方法获得的表示的优越性,我们采用 t-SNE [57] 在 Ratio = 0 的代表性数据集(即 COIL-20 数据集)上可视化基于图学习的方法的表示。
如图 1 所示,CSRF 方法在 COIL20 数据集上生成更具内聚性和分离性的簇。因此,它从聚类的角度更好地恢复了数据样本的内在结构。
表 IV 显示了所有竞争算法在具有不同缺失率的所有数据集上的平均运行时间。我们可以看到,两种基线方法比其他方法执行效率更高。 BSV 仅对每个单独视图执行谱聚类,而 CSRFAgg 只是累加各个视图的亲和力矩阵。 AGC、GIMC、HCPMC和COMVSC的运行成本明显高于其他竞争对手。这是因为它们在迭代计算期间需要对大小为 n × n 的矩阵进行矩阵求逆或特征值分解。这导致计算复杂度为 O(tn3) ,其中 t 表示迭代次数。相比之下,CSRF、UOMSC 和 EE-IMVC 在初始化或预处理阶段的计算复杂度为 O(n3)。这就是为什么 CSRF、UOMSC 和 EE-IMVC 比 HCPMC 和 COMVSC 运行得更快。在大规模数据集上两种算法的计算成本差异更大,例如,Caltech-101 数据集。此外,除了两种基线方法之外,与竞争对手相比,CSRF 具有良好的计算成本。例如,CSRF 通常比 UOMSC 和 EE-IMVC 具有更低的计算成本,如表 IV 所示。这些观察结果明确证明了所提出的 CSRF 方法的计算效率。
“C. Empirical Study on the Graph Construction of {Z(v)}nv v=1” C. {Z(v)}nv v=1 图构建的实证研究
我们提出了 CSRF 模型图构建的稀疏策略。由稀疏策略指导的两种不同的图构建方案被集成到CSRF模型中。因此,我们实证研究了所提出的 CSRF 方法中涉及的稀疏策略的效果。对于给定的X(v),可以根据不同的图构建方案得到其亲和力矩阵Z(v)。 L(v) 的初始化完全依赖于 Z(v) 的构造。两种图构造方案,即方案 1 (S.1) 和方案 2 (S.2),分别由 ANGL 和协作表示方法执行。对于方案1,聚类结果选自表III。对于方案 2,参数 λ 和 α 分别从 {10, 50, 500, 1e3, 2e3, 5e3, 1e4, 2e4} 和 {0.1, 0.2, 0.5, 1, 2, 5, 10} 范围内用网格搜索策略选择。同样,方案2的实验在每个数据集上独立执行10次。采用方案2的最佳平均聚类结果进行比较。
方案1与方案2的ACC和NMI值进行比较,如图2和图3所示。从这些结果中,我们可以观察到方案2在不同的缺失率[0,0.1,0.2,0.3]下实现了与方案1相当或稍好的性能。这说明稀疏策略设计的方案1和方案2都适合CSRF。因此,稀疏性策略为CSRF在实践中提供了可行的图构建策略。
我们引入稀疏率(SR)的定义来验证{Z(v)}nv v=1 的稀疏性: SR(Z(v)) = ∥Z(v)∥0 / size(Z(v)) ,其中 size(Z(v)) 表示Z(v)的元素总数。我们在两个图构建方案的所有数据集上计算 {Z(v)}nv v=1 的 SR。表 V 中报告了每个数据集上{Z(v)}nv v=1 的最大 SR。
根据这些结果,我们得出以下观察结果。首先,由于数据样本数量太少,MSRC-v1 数据集上的 SR 仍然很高。其次,方案1的SR低于方案2。总体而言,两种图构建方案的SR在除MSRC-v1数据集之外的所有数据集上仍然相对较低。因此,这表明在所提出的 CSRF 方法中采用稀疏策略来构建图是合理的。
“D. Parameter Sensitivity Analysis” D. 参数敏感性分析
所提出的 CSRF 方法有两个参数:r 和 α。我们进行实验来研究参数 r 和 α 对 COIL-20 和手写数据集上生成的 ACC 和 NMI 值的影响。在实验中,我们通过网格搜索策略分别从{5,7,10,15,20,25,30}和{0.01,0.05,0.1,0.5,1,5,10}范围内选择参数r和α。
图 4-7 显示了手写数据集和 COIL-20 数据集上参数 r 和 α 的不同组合的 ACC 和 NMI 方面的聚类性能。当多视图数据完整时,即当比率 ratio = 0 时,所提出的方法在相对较宽的 r 和 α 参数范围内表现稳定,如图 4a、5a、6a 和 7a 所示。当如图 4d、5d、6d 和 7d 中缺失比率增加到 0.3 时,所提出的方法对参数 r 稍微敏感。 然而,r的增加在一定程度上减少了聚类性能的负面影响。一般来说,我们凭经验建议在实际应用中r和α通常分别设置为{5,7,10,15,20,25,30}和{0.1,0.5,1,5,10}。此外,当将所提出的方法应用于大规模数据集时,我们可以为r设置一个相对较大的值。
“E. Convergence Analysis” E. 收敛性分析
我们分析了所提出的方法在六个数据集上的收敛性。所提出的方法理论上保证收敛到局部最小值。参数r和α的设置与性能评估中的设置相同。图8显示了在所有数据集上具有不同缺失率(0、0.1、0.2和0.3)的算法2的目标值的收敛曲线。
从图 8 中,我们观察到该方法的目标值通常会迅速下降,直到在数十次迭代内收敛。例如,MSRC-v1、O-Scene、Handwriting、Flower17、COIL-20 和 Caltech-101 数据集上的迭代次数分别为 22、20、152、22、3 和 52。这证明了所提出的 CSRF 方法具有良好的经验收敛性。另外,实验中算法1的迭代次数不超过3次,这与理论分析一致。
“V. CONCLUSION” 五、结论
在本文中,我们提出了 CSRF 方法来学习 MVC 的融合亲和力矩阵。所提出的CSRF方法利用谱旋转的优势引入CSRF模型,在谱嵌入特征级别获得一致的低维嵌入。它有效地捕获多个视图之间的互补信息。交替迭代优化算法每次迭代的计算复杂度为O(n2),保证了计算效率。引入稀疏策略来设计两种不同的图构建方案,并与CSRF模型有效集成。这表明 CSRF 模型对于图构建的鲁棒性。我们将一致性低维嵌入视为多视图数据中数据样本的内在特征,以获得用于谱聚类的融合亲和力矩阵。此外,我们还为 IMVC 提供了所提出方法的有效扩展。多视图基准数据集上的实验结果证明了所提出的 CSRF 方法的有效性和效率。
由于多视图数据中不同的缺失率,估计 α 和 r 参数非常具有挑战性。作为未来的方向,值得考虑CSRF方法中α和r参数的自适应估计机制,这有利于实际应用。
总结
小结:CSRF方法:
给定数据矩阵X = {X(v)}nv v=1
首先,通过图构建(ANGL)计算亲和矩阵Z(v),利用Z(v)得到图Laplace算子L(v),利用L(v)得到归一化嵌入(MCGC)H(v)(多视图)。
再者,利用CSRF 模型得到共识的低维嵌入 F,主要使用:在多个图的归一化拉普拉斯矩阵上引入谱旋转,交替更新F、H、γ。
最后,多视图的融合亲和力矩阵 W 是根据谱嵌入空间中的 F 构造的。在NCuts算法中应用W,并获得X的k个聚类。
前置条件:
1.ANGL
谱聚类方法的目标是使用矩阵的主特征向量(例如亲和矩阵或拉普拉斯矩阵[42])找到低维嵌入。亲和力矩阵的构建对于提高谱聚类的性能至关重要。聂等人 [43]提出了一种自适应邻居图学习(ANGL)方法来学习亲和力矩阵。 ANGL方法的目标函数可以表述如下:
//xi和xj之间连通,则添加两者距离
其中β是惩罚参数,Zi是Z的第i列,Zij表示数据样本xi和xj之间的连通概率。 ANGL使用代表邻居数量的参数r作为良好的代理来正则化参数β;即,
问题(4)有一个封闭式解:
其中 Wij = ∥xi − xj∥22 [43]。
2. 传统光谱旋转
给定任意正交矩阵 R ∈ Rk×k,即 RTR = RRT = Ik,以下等式始终成立:
这里R被视为旋转矩阵[36]。这意味着H*R也是问题(3)的最优解。
谱旋转是一种从特征向量中寻找最佳二元矩阵的算法[36]、[38]。
具体来说,谱旋转的目标函数可以写为:
其中Y ∈ Rn×k 是二元聚类指示矩阵[36],[38]。谱旋转提供了连续解的离散解的近似。
3.MVC
基于图学习的 MVC 方法旨在学习多个视图之间的共识图
例如,提出了一种多视图共识图聚类(MCGC)方法来学习共识图,同时最小化不同视图之间的分歧并限制拉普拉斯矩阵的秩[26]。令 L(v) 为归一化拉普拉斯矩阵,H(v) 为第 v 个视图的相应谱嵌入矩阵。 MCGC模型可以表述如下:
其中 λ 是一个权衡参数,共识图 S 代表不同观点下 H(v) H(v) T 的最佳近似。 H(v) 的初始化对MCGC模型的影响值得进一步研究。
一种可扩展且无参数的 MVC 图融合模型被提出,以寻求跨多个视图的结构化最佳联合图 [44]。图融合框架表述为
其中 α(v) (1 ≤ v ≤ nv) 是加权参数,B(v) ∈ Rn×m 是第 v 个视图的亲和度矩阵,B ∈ Rn×m 是联合亲和度矩阵。
从谱嵌入的角度来看,MVC 的主要挑战是学习一致的低维嵌入来探索多个视图之间的互补信息。
MVC 的共识光谱旋转融合 CSRF
共识的低维嵌入 F ∈ Rn×k 可以从多个视图 {H(v)}nv v=1 的独立谱嵌入图获得。考虑多视图 {H(v)}nv v=1 的各个谱嵌入图,CSRF 模型的目标函数表述为:
解决方法:
提出了一种可替代的优化算法来解决问题(11)。具体来说,迭代更新变量F、{H(v)}nv v=1 和{γ(v)}nv v=1 ,而其他变量保持固定,直到算法收敛。
解决问题(11)的整个优化过程:
更新F:
其中H = Σnvv=1 γ(v)H(v),U和V分别为矩阵H的经济奇异值分解(SVD)的左奇异矩阵和右奇异矩阵,即H = UΣVT 。
更新H:
整个优化过程总结在算法1中。
迭代求解以下优化问题:
其中 M(v) = (λmax(v)In- L(v))Ht(v) + αγ(v)F 并初始化 H(v)。让
是问题(16)的最优目标值objective value。收敛条件为
更新γ:
让
是问题(11)的最优目标值objective value。收敛条件为
其中 t 表示第 t 次迭代,ε = 1e−3。
图构建:
给定一组多视图数据{X(v)}nv v=1,需要在亲和力矩阵{Z(v)}nv v=1上初始化{L(v)}nv v=1和{H(v)}nv v=1 。学习每个视图的亲和力矩阵的图构建对于 CSRF 具有重要意义。
引入了稀疏策略来确定亲和矩阵 Z(v) 。
根据稀疏性策略,我们考虑两种 CSRF 的图构建方案。
在第一个图构造方案中,我们采用ANGL方法来解决X(v)的问题(5)[43]。因此,可以获得 X(v) 的每个单独的亲和力矩阵 Z(v) 。
在另一个替代方案中,我们利用数据样本的自我表达特性来获得继我们之前的工作之后的协作表示[47]。
算法 3 总结了所提出的 CSRF 方法涉及第一个图构建方案的整体过程。
通过ANGL方法计算获得Z(v)后,每个归一化图拉普拉斯矩阵L(v)被初始化为
其中 Q(v) =diag [ q1(v) , q2(v) , ..., qn(v)] ∈ Rn×n 是度矩阵,即 qi(v)= Σn j=1 Zij(v) 。接下来,每个H(v) 被初始化为L(v) 的归一化谱嵌入,即对应于L(v) 的k个最小特征值的k个归一化特征向量。最后,我们可以使用算法2获得一致的低维嵌入F。
所提出的CSRF方法通过CSRF将多视图数据的多个图转移到单个图。正如前面的分析一样,一致的谱嵌入F是原始特征的映射结果,即多视图的内在特征。它可以用来发现数据样本的相关性而不是原始特征。结合第一种图构造方案,类似于问题(4)的新目标函数可以写为
其中 β 是调整参数,fi 是 F 的第 i 行。多视图的融合亲和力矩阵 W 是根据光谱嵌入空间中的 F 构造的。考虑到其他图构造方案,W也可以通过将协作表示和欧几里德投影结合到单纯形算法上来获得,这与计算Z(v)类似。(类似ANGL方法)