多样性诱导的多视角子空间聚类DiMSC
Diversity-induced Multi-view Subspace Clustering | IEEE Conference Publication | IEEE Xplore
“Abstract” 摘要
在本文中,我们重点研究如何通过挖掘多视图特征之间的互补信息来促进多视图聚类。针对这一任务,提出了一种多视图聚类框架,称为多样性诱导的多视图子空间聚类( DiMSC )。在我们的方法中,我们将现有的子空间聚类扩展到多视图领域,并利用希尔伯特施密特独立性准则( HSIC )作为多样性项来探索多视图表示的互补性,通过交替最小化优化可以有效地解决这一问题。与其他多视图聚类方法相比,增强的互补性降低了多视图表示之间的冗余性,提高了聚类结果的准确性。在图像和视频人脸聚类上的实验表明,所提出的方法优于当前最先进的方法。
“1. Introduction” 1 .导言
多视图数据在许多现实世界的应用中非常普遍,因为数据通常从不同的领域收集或从不同的特征提取器中获得。例如,颜色和纹理信息可以作为图像和视频中不同类型的特征。网页也可以使用基于文本和超链接的多视图特征来表示。单独来看,这些观点往往会存在不足或不完整,因为不同的观点描述了数据的不同视角。因此,数据分析的一个关键问题是如何整合多个视图并发现潜在的结构。最近,一些从多视图数据中学习的方法被提出。然而,它们大多集中于有监督或半监督学习[ 1、6、22、31],其中需要一个验证集。在本文中,我们关注于多视图聚类,由于缺乏训练信息来指导学习过程,因此更具挑战性。
多视图设置的互补原则指出,数据的每个视图可能包含一些其他视图所不具备的知识。因此,可以利用多个视图对数据[ 30、31 ]进行全面、准确的描述。此外,[ 4、5、26]的一些理论结果表明,不同视图的独立性可以作为多视图学习的有益补充。然而,现有方法[ 8、9、12、16、17、24、25]的主要局限性在于无法保证不同视图对应的不同相似度矩阵之间的互补性。换句话说,他们假设在独立构造的相似度矩阵中,互补信息是丰富的,或者视图之间是充分独立的。然而,我们发现利用特定的独立构造的矩阵是不够的,探索潜在的互补性对于多视图聚类的成功非常重要。
图 1.朴素多视图子空间聚类 (NaMSC) 和我们的 DiMSC 的比较。绿色矩形表示真实聚类。对于多视图输入(a),NaMSC使用SMR[15](b)独立学习子空间表示,这不能保证不同视图之间的互补性。相比之下,我们的 DiMSC 采用不同的子空间表示来探索多个视图中的互补信息,并获得最终的聚类结果 (f)。
图 1(a-c) 说明了组合多视图特征的直接方法,该方法根据某些特定的距离度量独立构造每个特征的相似度矩阵。相比之下,我们深入考虑所有不同视图的互补信息,发现互补信息被探索得更彻底,而多视图特征的相似度矩阵更加多样化。本文提出了一种新颖的多视图子空间聚类方法,称为多样性诱导多视图子空间聚类(DiMSC),以探索互补信息。如图 1(d-f) 所示,我们的方法在多样性约束的帮助下联合学习所有不同的子空间表示。希尔伯特-施密特独立准则 (HSIC) 用于根据核相关性度量来测量相关性。通过这个术语,我们明确地共同规范不同的视图,以增强联合学习的子空间表示的多样性。
我们工作的主要贡献是将基于自我表示的子空间聚类扩展到多视图设置,并提出了一种多样性诱导的多视图子空间聚类方法,该方法在处理多视图数据方面优于相关的最先进方法。此外,我们引入了一种新颖的方案来确保基于 HSIC 的不同子空间表示的多样性。借助 HSIC 的内积核,我们的公式很容易求解,并且理论上保证了收敛。
“2. Related Work” 2.相关工作
大多数现有的多视图聚类方法利用基于图的模型的多视图特征。例如,[9]中的工作构建二部图来连接双视图特征,并使用标准谱聚类来获得2视图聚类结果。 [24] 中的方法将来自多个图的信息与链接矩阵分解相融合,其中每个图通过具有图特定因子和所有图共同因子的矩阵分解来近似。 [17]、[25]中的方法共同规范聚类假设,以利用谱聚类框架内的补充信息。在[16]中,提出了一个基于协同训练的框架,它搜索在不同视图中一致的聚类。
在多核学习(MKL)中,正如早期工作 [8] 中所建议的那样,与更复杂的分类方法相比,即使通过添加不同的核来简单地组合它们也通常会产生接近最佳的结果。视图不是平均地添加这些内核,而是根据给定的内核矩阵来表达,并且与[12]中的划分并行地学习这些内核的加权组合。请注意,这些方法中的相似性矩阵是独立构建的,而我们的 DiMSC 联合构建相似性矩阵,旨在促进不同视图之间的互补性。
最近,人们提出了子空间聚类方法来探索具有自表示的样本之间的关系(例如,稀疏子空间聚类(SSC)[10]、低秩表示分割(LRR)[18]和平滑表示聚类(SMR) [15]),并被应用于许多研究领域,包括人脸聚类[29, 32]、图像分割[7]和医学图像分析[11]。然而,这些方法仅考虑单视图特征,其中相似度矩阵是基于这些重建系数构建的。 [14]中的工作将多视图子空间学习表述为具有公共子空间表示矩阵和群稀疏诱导范数的联合优化问题。 [27] 中的工作提供了 2 视图子空间学习的凸重构。有一些基于降维的方法,通常从多个视图中学习低维子空间,然后应用任何现有的聚类方法来获得结果。该流中的代表性方法在[3, 5]中提出,它们使用典型相关分析(CCA)将多视图高维数据投影到低维子空间上。这些方法大多数没有考虑加强不同观点的互补性。虽然方法[27]强制条件独立以保证互补性同时降低维度,但它只能应用于2视图设置。相比之下,我们通过直接增强不同视图的依赖性来增强互补性,并且不限于视图的数量。
“3. The Proposed Method” 3. 所提出的方法
“3.1. Naive Multi-view Subspace Clustering” 3.1.朴素多视图子空间聚类
假设 X = [x1, x2, ..., xn] ∈ Rd×n 是数据向量矩阵,其中每一列是一个样本向量,d 是特征空间的维数。为了将数据聚类到各自的子空间中,我们需要计算一个相似性矩阵,该矩阵对数据对之间的成对相似性进行编码。因此,自我表示方式被写成紧凑矩阵形式:
其中 Z = [z1, z2, ..., zn] ∈ Rn×n 是系数矩阵,每个 zi 是样本 xi 的新表示,E 是误差矩阵。得到自表示矩阵Z后,相似度矩阵S通常构造为[10]:
| · |表示绝对运算符。然后,将相似度矩阵作为谱聚类算法[19]的输入,得到最终的聚类结果。基于子空间的聚类技术已在许多图像处理领域显示出其威力。然而,多视图表示无处不在,因此,将子空间聚类扩展到多视图设置对于许多应用程序至关重要。
在本文中,我们首先介绍一种简单直接的方法将单视图子空间聚类扩展到多视图设置。
与 SMR 一样,我们采用图正则化技术,该技术显式强制子空间表示以满足分组效果[15]。我们用X(v)表示第v个视图对应的特征矩阵。类似地,我们使用 Z(v) 来表示与第 v 个视图对应的学习子空间表示。我们用 xij (v)表示 X(v) 在第 i 行第 j 列的条目。
具体来说,如果一对点在原始特征空间中接近,则它们在新表示中应该彼此接近。形式上,它具有以下形式: ||xi − xj||2 → 0 ⇒ ||zi − zj||2 → 0, ∀i ≠ j。
因此,第v个视图对应的平滑表示聚类的目标函数为:
其中α(v)是权衡因子,Ω(·)表示平滑正则化项,其定义如下:
其中 tr 表示矩阵迹。 W(v) = (wij (v) ) 是衡量点的空间接近度的权重矩阵。 L(v) = D(v) − W(v) 是拉普拉斯矩阵,其中 D(v) 是对角度矩阵,其中 dii (v) = Σn j=1 wij (v) 。构造 W(v) 的方法有很多种。在本文中,我们使用内积来衡量相似度,因为它实现简单并且在实践中表现良好。然后,我们得到一个朴素的多视图子空间聚类公式:通过最小化以下方式
其中 V 是所有视图的数量。该方法独立学习每个子空间表示。因此,它不能保证不同观点的互补性。我们将该方法称为朴素多视图子空间聚类(NaMSC)。
“3.2. Diversity-induced Multi-view Subspace Clustering” 3.2.多样性引起的多视图子空间聚类
根据目标函数(5),NaMSC仅直接组合多视图表示,没有任何约束。在这里,我们通过加强所有表示的多样性来探索不同观点之间的互补信息。高独立性意味着两个变量的高度多样性[20, 21]。经典的独立性标准包括 Spearmans rho 和 Kendalls tau,它们只能检测线性依赖性。出于多种原因,我们采用希尔伯特-施密特独立准则 (HSIC) 来衡量变量的相关性。首先,HSIC 通过将变量映射到再现内核希尔伯特空间 (RKHS) 来测量依赖性,以便在该空间中测量的相关性对应于原始分布之间的高阶联合矩,并且可以解决更复杂(例如非线性)依赖性。其次,这种方法能够估计变量之间的相关性,而无需明确估计随机变量的联合分布。因此,它的计算效率很高。最后但并非最不重要的一点是,经验 HSIC 结果等于数据矩阵的乘积迹,这使得我们的问题可以解决。我们的目标是促进子空间表示的多样性,因此我们使用 HSIC 来惩罚两种表示中数据之间的依赖性。具体来说,为了确保一种表示相对于另一种表示是新颖的,我们使用 HSIC 来惩罚两种表示中数据之间的依赖性。
“3.2.1 Representation Diversity Term” 3.2.1 表示多样性术语
首先,我们回顾一下互协方差 Cxy 的定义。让我们定义从 x ∈ X 到核空间 F 的映射 φ(x),使得该空间中的向量之间的内积由核函数 k1(xi, xj) =< Φ(xi), Φ(xj ) >.设 G 为 Y 上的第二个核空间,核函数 k2(yi, yj) =< φ(yi), φ(yj) >。互协方差是给出两个随机变量的协方差的函数,定义如下:
其中 μx = E(Φ(x)) 和 μy = E(φ(y)),⊗ 是张量积。那么,我们对 HSIC 的定义如下[13]:
“Definition 3.1.” 定义 3.1。
给定两个可分离的 RKHS F、G 和联合分布 pxy ,我们将 HSIC 定义为相关互协方差算子 Cxy 的 HilbertSchmidt 范数:
其中 ||A||HS 表示矩阵的希尔伯特-施密特范数:
然而,联合分布 pxy 通常是未知的或难以估计。因此,HSIC 的经验版本归纳如下:
“Definition 3.2.” 定义 3.2。
考虑从 pxy 中提取的一系列 n 个独立观测值,Z := {(x1, y1), ..., (xn, yn)} ⊆ X × Y,HSIC 的估计量,写为 HSIC(Z, F, G ),给定如下:
其中 K1 和 K2 是 Gram 矩阵,其中 k1,ij = k1(xi, xj)、k2,ij = k2(yi, yj)。 hij = δij − 1/n 将 Gram 矩阵居中,使其在特征空间中具有零均值。有关HSIC的更多详细信息,请参阅论文[13]。
为了确保不同视图中的表示提供足够的补充信息,我们使用 HSIC 来惩罚这些新表示中数据之间的依赖性。
为了增强补充信息,在我们的方法中,我们鼓励不同视图的新表述具有足够的多样性。这相当于强制每个视图的表示对于彼此来说都是新颖的。令 X(v)、Z(v) 分别表示第 v 个视图和相应子空间表示中的特征。然后,我们应该最小化以下目标函数:
其中 λS 和 λV 分别是对应于平滑度和多样性正则化项的权衡因子。假设数据来自不同的子空间,第一项确保关系是在同一子空间中构建的。第二项和第三项强制学习的子空间表示满足独立的分组效果和共同的多样性。
我们的方法不限于一种特定的子空间聚类方法。我们的方法基于 SMR,因为 SMR 是最先进的方法。尽管如此,其他子空间聚类算法,例如SSC、LRR也可以在我们的方法中实现。
“3.3. Solving the Optimization Problem” 3.3.解决优化问题
利用交替最小化策略,我们可以以一次对一个视图一次最小化的方式近似求解方程(10),同时固定其他视图。具体来说,除了一个 Z(v) 之外的所有 Z(v) 都固定后,我们最小化以下目标函数:
在本文中,我们使用 HSIC 的内积核,即 K(v) = Z(v)T Z(v)。为了符号方便,我们忽略 HSIC 的缩放因子 (n − 1)−2 并得到以下等式:
其中
问题(11)是一个光滑凸规划。将目标函数对 Z(v) 求导并将其设置为零,我们得到以下最优解 Z(v)*,满足
上式是标准西尔维斯特方程Sylvester equation [2],有唯一解。 DiMSC 的整个过程总结在算法 1 中。
算法1:求解DiMSC的算法
输入:没有标签的多视图数据D = {X(1),…,X(V )},子空间数k,参数λV和λS
for 每一个 v∈V:
通过求解目标函数(3)来初始化Z(v)
end
while 未收敛:
for 每一个 v∈V:
通过求解目标函数(11)来得到Z(v)
end
end
通过 S = ΣV v=1 |Z(v)| + |Z(v)T|将每个视图的子空间表示结合。
使用相似性矩阵S来执行谱聚类
输出:聚类结果C
如方程(12)-(13)所述,通过使用内积核,最小化HSIC结果相当于最小化数据矩阵的乘积的迹。然后,我们的目标可以使用与平滑子空间聚类类似的方法来优化(西尔维斯特方程,方程(13))。因此,它的实现非常简单并且非常高效。请注意,我们的方法非常通用,它可以用于非线性通用内核(例如,高斯核)。然而,当结合非线性通用核时,在对目标函数对Z(v)进行微分后,不能采用如方程(13)中的Sylvester方程。因此,更新 Z(v) 的迭代在计算上是昂贵的。一种解决方案是在每次迭代中应用梯度下降法更新每个Z(v)。尽管如此,采用非线性通用核对于解决更一般的相关性非常有趣,我们将在未来的工作中考虑它。
“Proposition 3.1.” 命题3.1。
目标函数(10)保证与算法1收敛。
“Proof 3.1.” 证明3.1。
给定每个 Z(v) 的初始化,对于优化问题 (11) 的每次迭代,我们可以获得标准 Sylvester 方程的唯一解。假设 [Z]k 表示第 k 次迭代中的更新值,则对于 ∀ Z(v),我们有
我们可以将原始目标函数(10)分解为两部分,F 和 -F,它们分别对应于第v个视图和所有其他视图。然后,结果是:
区分第 k 次和第 k + 1 次迭代之间的目标函数,我们有
上述等式成立是因为目标函数的第 k 个和第 (k + 1) 个表示具有相同的 ̄ F 部分。因此,对于每次迭代,目标函数都是不增加的。据此,命题3.1得证。
进行交替最小化直至收敛。由于交替最小化会使算法陷入局部最小值,因此合理的初始化非常重要。我们使用 SMR 初始化 V -1 视图的表示,这是我们方法的一个特殊情况(当 (10) 中 λV = 0 时)。另一方面,如果没有关于哪个视图提供更多关于聚类的信息的先验信息,我们可以从任何视图开始。然而,如果我们对此有一些先验知识,我们可以从初始化和修复更多信息的视图开始,并针对信息最少的视图进行优化。由于目标不随迭代而增加,因此保证了算法的收敛性。在实践中,我们监控在不到 5 次迭代内达到收敛。
“4. Experimental Results” 4. 实验结果
在本节中,我们将我们的方法 DiMSC 与多视图人脸聚类数据集上最先进的方法进行比较。我们使用四个公共数据集。
•Yale. 该数据集包含 15 个人的 165 张 GIF 格式的灰度图像。每个主题有 11 张图像,每种不同的面部表情或配置一张:中心光、戴眼镜、快乐、左光、不戴眼镜、正常、右光、悲伤、困倦、惊讶和眨眼。
•Extended YaleB. 该数据库包含 38 个人以及每个人在不同照明下的大约 64 张近正面图像。与 [15] 中的工作类似,我们使用了 Extended YaleB 的一部分,它由 10 个类别的 640 张正面图像组成(我们使用前 10 个类别进行实验)。
•ORL. 该数据集包含 40 个不同主题的 10 张不同图像。对于某些受试者,图像是在不同时间拍摄的,改变了照明、面部表情(睁眼/闭眼、微笑/不微笑)和面部细节(戴眼镜/不戴眼镜)。所有图像都是在黑暗均匀背景下拍摄的,拍摄对象处于直立的正面位置(可以容忍一些侧面移动)。
•Notting-Hill Video Face. 我们还在视频人脸聚类数据集上进行了实验[28,29,23]。数据集Notting-Hill源自电影“NottingHill”。使用了5个主要演员的面部,包括76个轨道的4660个面部。
对于所有人脸数据集,我们将图像大小调整为 48*48 并提取三种类型的特征:强度、LBP 和 Gabor。标准 LBP 特征是从 72×80 松散裁剪的图像中提取的,直方图大小为 59,超过 9×10 像素块。 Gabor wavelets 是在四个方向 θ = {0o, 45o, 90o, 135o} 处以一个尺度 λ = 4 提取的,并以 25×30 像素的分辨率使用松散的面部裁剪。除强度外的所有描述符均按单位范数缩放。
我们将我们的方法与许多基线进行比较:
• Singlebest. 该方法利用信息最丰富的视图,即通过标准谱聚类算法实现最佳性能的视图[19]。
•FeatConcate. 该方法连接所有视图的特征,然后应用标准谱聚类。
•ConcatePCA. 该方法首先连接所有视图的特征,并应用PCA提取低维子空间表示。然后,它将标准谱聚类应用于低维表示。
•Co-Reg SPC 成对多视图谱聚类方法共同规范聚类假设,从而强制每个视图中的相应数据点具有相同的聚类成员资格。
•Co-Training SPC 基于协同训练的多视图谱聚类方法假设真正的底层聚类会将一个点分配给同一聚类,而与视图无关。
•Min-Disagreement 该方法基于谱聚类算法,该算法创建二分图并基于“最小化不一致”的思想。
•NaMSC。首先,该方法使用[15]中的方法独立地进行子空间表示学习,然后对这些表示的组合应用谱聚类。
我们使用六个评估指标来比较所有方法,包括归一化互信息(NMI)、准确性(ACC)、调整兰特指数(AR)、F-score、精度和召回率。对于所有这些指标,值越高表示聚类质量越好。每个指标都会惩罚或支持聚类中的不同属性,因此我们报告这些不同指标的结果以进行全面评估。如上所述,如果没有另外说明,内积核用于计算所有实验中的图相似度。我们方法的参数相对鲁棒。
在图 2 中,我们展示了 Extended YaleB 上的可视化结果。
图 2. 子空间表示 Z(1)(对应于 view1)、Z(2)(对应于 view2)和相似性矩阵 S 的可视化。顶行是 NaMSC 的结果,底行对应于提出的 DiMSC。
NaMSC(顶行)独立学习的表示形式比与 DiMSC 联合学习的表示形式的多样性要少。随后,相似度矩阵(第三列)是通过组合这些不同视图的表示来构造的。由于多样性的原因,DiMSC 的相似矩阵比 NaMSC 更好地揭示了底层结构。
与工作[16]类似,我们也报告了这些不同措施的结果以进行综合评估。
如表 1 所示,co-Train SPC 在 NMI 方面表现第二好,但在其他指标方面则不然。此外,我们的方法在所有这些指标方面都优于其他方法,这表明我们的方法具有明显的进步。
表 1 和表 2 分别显示了 Yale 和 Extended YaleB 数据集上的人脸聚类结果。在这两个数据集上,我们的方法都优于所有基线。请注意,除了 NaMSC 和我们在扩展 YaleB 数据集上的方法之外,其他方法的性能相当低。主要原因是光照变化较大。以强度特征为例,在这种情况下,基于自表示的子空间聚类算法由于线性组合的优势仍然可以很好地工作,而传统的基于距离的方法将由于光照的变化而退化。对于表 1 中的耶鲁数据集,最接近的已发布竞争对手是 co-Train SPC [16]。在NMI和ACC方面与NaMSC接近。尽管如此,我们在 AR、F 分数、精确度和召回率方面比 NaMSC 提高了约 2%。对于表 2 中的扩展 YaleB 数据集,co-Train SPC [16] 在 NMI 方面表现良好。然而,在其他五个指标方面,他们的表现与其他人一样低。毫不奇怪,Singlebest 在已发布的竞争对手中表现最好 [9,17,16]。然而,其性能不如NaMSC。由于其对多样性的有效利用,DiMSC 的性能进一步显着优于 NaMSC。
表 3 显示了 ORL 数据集上的结果。在这个数据集上,很多方法都取得了可喜的性能。我们的方法仍然明显优于所有替代方法。
表 4 显示了视频人脸数据集 Notting-Hill 上的结果。该数据集中的视频人脸聚类是一项更具挑战性的任务,因为人脸的外观通常会因照明条件而发生显着变化,尤其是光线角度经常发生巨大变化。我们的方法优于最接近的性能基线,即 NaMSC,具有明显的较大优势。
就 NMI 而言,四个数据集上相对于 NaMSC 的性能提升分别为 5.6%、4.1%、1.4%、6.9%。为了进一步证明性能改进的重要性,我们对我们的结果进行了Stuadent‘s t-test。在实验中,t检验的四个数据集上的输出均为1,这意味着我们的方法优于其他方法的正确概率为1-α = 0.9999。我们还注意到,直接连接所有特征并不是一个正确的方法,因为它的性能总是比最好的单一视图差。另一方面,虽然具有最佳单视图的聚类有时能取得良好的性能,但很难自适应地选择合适的视图。
图 3.NaMSC(左侧蓝色矩形)和建议的 DiMSC(右侧绿色矩形)的一些视觉聚类结果。每行表示一个人脸簇输出。错误的聚类面由红色矩形突出显示,每行中的错误率大约等于其在聚类中的比例。
DiMSC 和 NaMSC 的聚类示例如图 3 所示。限于篇幅,我们仅展示了 Yale 数据集上的一部分(前 5 个最佳)聚类以及 Notting-Hill 上的所有聚类。因此,计算定量结果并将其与表 1 中的结果进行比较是不合适的。从图 3 中可以看出,DiMSC 的结果比表现第二好的 NaMSC 的结果更有希望。例如,在图3(a)中对应于同一个人的第一行中,大约一半的人脸被NaMSC错误地聚类,而提出的 DiMSC 获得了更准确的聚类。
我们分别以图 4 和图 5 为例展示了扩展 YaleB 上的参数调整和算法收敛。如图4所示,当固定λS = 0时,性能相对较低,这说明了平滑项的重要性。当参数 λS 在一个范围内(例如,[0.01,0.03])选择时,可以预期有希望的性能。分集项的参数相对稳健,因为当λV在较宽的范围内选择时,性能稳定。图 5 中的示例结果表明 DiMSC 在少量迭代内收敛,这从经验上证明了命题 3.1。
“5. Conclusions” 5。结论
在本文中,我们考虑多视图设置下的子空间聚类,以利用数据的丰富表示。我们提出了多样性诱导的多视图子空间聚类方法,该方法采用希尔伯特-施密特独立准则来明确强制学习的子空间表示彼此新颖。我们已经表明,增强的补充信息可以作为多视图子空间聚类的更有用的补充。我们的实证研究表明,所提出的方法可以有效地探索给定数据的潜在补充信息,并且优于实验中使用的所有其他多视图聚类方法。
总结
X = lyap(A,B,C)
求解西尔维斯特方程
AX+XB+C=0
初始化Z(v):
对于(3),Nimsc:
A_syl = X'*X;
B_syl = lambda*L;
C_syl = -X'*X;
求解Z(v):
对于(11),Dimsc:
A_syl = X'*X;
B_syl = lambda*L + beta*K_complement;
C_syl = -X'*X;
根据Z(v)得到S,根据S和W = X'*X;L = diag(sum(W)) - W;应用谱聚类得到聚类结果C,根据聚类结果C得到各种指标,并与其他算法进行比较