论文阅读+总结:“Graph Learning for Multiview Clustering”

多视图聚类的图学习

摘要:大多数现有的基于图的聚类方法需要预定义的图,并且它们的聚类性能很大程度上取决于图的质量。为了提高多视图聚类性能,提出了一种基于图学习的方法来提高图的质量。初始图是从不同视图的数据点学习的,并且初始图通过拉普拉斯矩阵的秩约束进一步优化。然后,通过精心设计的优化过程将这些优化后的图集成到全局图中。全局图是通过优化过程学习的,其拉普拉斯矩阵具有相同的秩约束。由于秩约束,聚类指标直接由全局图获得,无需执行任何图割技术和k均值聚类。在几个基准数据集上进行了实验,以验证所提出的基于图学习的多视图聚类算法与最先进的方法相比的有效性和优越性。

“Index Terms—Clustering, feature learning, multiview clustering, unsupervised learning.” 索引术语——聚类、特征学习、多视图聚类、无监督学习。

“I. INTRODUCTION” 一、简介

用多个视角的各种特征来表示一个对象是合理和恰当的,而且通常这些不同的特征是相互补充的。多视图特征学习可以集成所有这些特征并利用视图之间的相关性来获得更精细和更高层次的信息。因此,有效地集成来自不同视图的异构特征以提高聚类性能是一个重要的课题。

数据结构通常以图的形式来表征。大多数现有的基于图的聚类方法将数据聚类与图构建分开。除了高斯函数之外,还有几种图构造方法,例如局部线性相似图[1]、k近邻图[2]、[3]、局部判别图[4]、[5]、成对相似图[ 6],以及通过子空间聚类学习的图[7]。在这些方法中,图的构造独立于聚类,并且它们的性能高度依赖于预定义的图。最近,提出了一些自适应图学习方法,通过使用拉普拉斯矩阵的秩约束来直接获得聚类指标[8]-[12]。然而,用于多视图聚类的图学习方法很少。

在本文中,聚类指标是通过学习的全局图获得的,无需执行图割技术和k-means聚类算法,如图1所示。


图 1. 图学习示意图。

拉普拉斯矩阵上的秩约束渲染学习图以实现理想的邻域分配,以便图的分量数量恰好等于簇的数量,并且每个分量对应于一个簇。初始图是从多视图数据中学习的,并且这些图通过新颖且精心设计的优化问题进一步优化。然后,将优化后的图集成到全局图中。所提出的方法联合优化图矩阵以利用视图之间的数据相关性。

由于所提出的基于图学习的方法更好地捕获了数据空间的图结构,因此更好的定量结果充分证明了在多视图聚类问题的几个现实数据集上的优越性。

本文的其余部分安排如下。我们在第二节中回顾了一些相关工作。在第三节中,我们提出了两个目标函数,第一个目标函数用于优化每个单视图图,第二个目标函数用于将它们集成到全局图中。这些图受到拉普拉斯矩阵的秩的约束。在第四节中,我们提出了一种新颖的算法来优化第三节中精心设计的目标函数。在第五节中,进行了数值实验。我们使用四个真实数据集并与七种最先进的方法进行比较。第六节最后进行了一些讨论。

“II. RELATED WORK” 二.相关工作

最近提出了许多多视图聚类方法。首先,应用协同训练学习模型来融合多视图特征[13]-[15],Balcan等人[16]以及王和周[17]研究了协同训练方法成功的原因。协同训练的一个缺点是它对于导致误差扩散的异常特征不具有鲁棒性。这些早期的协同训练方法是半监督学习算法。库马尔等人 [18]、[19]提出了基于协同训练学习的无监督多视图聚类方法,例如协同训练多视图谱聚类(SC)和共同正则化多视图SC(CRSC)。这两种方法对每个视图都使用预定义的拉普拉斯矩阵,并且需要预先进行图构造,并将数据聚类与图构造分开,这使得聚类精度高度依赖于输入图的质量。

与这两种方法相同,其他基于 SC 的多视图聚类方法也存在相同的问题,例如多模态 SC [20]、鲁棒多视图 SC (RMSC) [21]、多视图 SC (MVSC) [22]、SC with头脑风暴[23]等。由于利用了明确定义的数学框架[24]-[27],SC 是最流行的聚类方法之一。由于这些基于图的聚类方法利用了数据图和流形信息,因此它们表现出比多视图 k 均值聚类更好的性能[28]。然而,大多数基于图的 MVSC 方法的结果对输入图很敏感。更重要的是,该图没有明确表示聚类结构,因此基于图割的方法需要后处理 k 均值来获取聚类指标。多视图子空间聚类方法还需要后处理k均值聚类算法,因为它们最终使用SC方法来获得聚类指标[29]-[32]。

大多数多视图聚类方法都是基于图的,它们需要在学习的数据空间中执行图割技术和k-means以获得聚类指标。

“III. GRAPH LEARNING” 三.图学习

如果相似度矩阵 S ∈ Rn×n 中的所有元素都是非负的,则其拉普拉斯矩阵 L 具有性质[33],[34]。

定理1:作为L的特征值0的重数c等于S的分量数。

定理1表明,如果满足约束条件rank (L) = n − c,则S是理想的邻居分配,并且数据点已经划分为c簇[33]-[35]。

当L的前c个最小特征值之和为零时,满足约束条件rank(L) = n − c,即Σc i=1 λi = 0,且λi表示L的第i个最小特征值。根据 Fan 的 [36] 定理,我们有

其中 QT = [q1, q2,...,qn],Tr(·) 表示迹算子,L = D − [(ST + S)/2] 是拉普拉斯矩阵,I ∈ Rc×c 是恒等式矩阵,D是对角矩阵,其元素是[(ST + S)/2]的列和。

Fan定理的证明可以参见[37]和[38]。 (1) 的左项可以通过 L 的特征向量关于 Q 求解,但它对于 S 具有平凡解,即所有元素都分配为零。因此我们添加2-范数正则化来平滑S的元素,并添加S的每列之和为1的约束。然后,使用以下目标函数(2)同时优化S和Q:

其中 β 是正则化参数,sj 是 S 的第 j 列。

我们在第 IV-A 节中提出了一种新的算法来优化目标函数 (2)。根据定理1,式(2)的收敛条件由L的特征值决定,当L的前c个最小特征值之和为零时,即可达到式(2)的收敛条件。目标函数(2)与[8]中提出的目标函数不同。目标函数(2)只有一个正则化参数,不涉及原始数据点。在[8]中,原始数据点涉及其目标函数,这可能会受到维数灾难的影响。

我们通过(2)获得每个视图图S(v),并且通过以下方式将不同的图整合成全局图A

其中 aj 是 A 的第 j 列,aij 是 A 的第 (i, j) 个元素,La = Da − [(AT + A)/2] 是全局拉普拉斯矩阵,Da 是对角矩阵及其元素是矩阵 [(AT + A)/2] 的列和。

在(3)中,我们使用约束条件rank(La) = n − c,以便根据定理1很好地优化全局图A。新颖之处在于多视图聚类的图学习以利用每个单个视图的构造查看图表并将这些图表集成到全局图表中。图1是图学习的示意图,从图1可以看出,最优全局图的分量数就是簇数。然而,k-means很难达到理想的结构。方程(3)在精心设计的优化问题中使用拉普拉斯矩阵的秩约束。在第 IV-B 节中,我们提出了一种新颖的算法来优化目标函数 (3),并通过交替优化来解决这个硬优化问题。

“IV. OPTIMIZATION” 四.优化

“A. Single View Graph Learning”  A. 单视图图学习

第一阶段是通过(2)独立优化每个单视图图S(v)。

 我们将问题(2)分成两个子问题并交替求解。

第一个子问题是固定 Q,更新 sij。

那么,(2) 就变成

其中 sij 是 S 的第 (i, j) 个元素。

S的每一列都是独立的,因此求解(4)相当于优化以下问题:

‖qi − qj‖22 记为 gij ,则 (5) 变为

由于Q固定,‖qi − qj‖22 固定为常数,gij 为常数,(6)先除以β再加上gj2/2β,则

求解(6)相当于优化以下问题:

其中 gj 表示 [g1j, g2j,...,gnj]T 。

则式(7)的拉格朗日函数为

根据Karush-Kuhn-Tucker条件[39],可以验证最优解sj为

第二个子问题是固定 S,更新 Q。

然后,(2) 变为

式(10)可以通过计算L的特征向量来求解。

我们交替优化(9)和(10),直到 L 的前 c 个最小特征值之和为零。求解(2)的算法由算法1概括。


算法1:学习每个单视图图S(v),∀v

1.输入:来自nv个视图的数据集 X = {X(1),X(2),…,X(nv)}和聚类数量c

2.输出:不同视图图S(v),v ∈ [1,nv]

3.初始化:每个视图图S(v)是通过在(4)中将x带入q初始化。并在(10)中使用每个初始化视图S(v)获得初始Q(v)。

4.for v ∈ [1,nv] do

5.重复

6.用(9)更新sj(v)

7.用(10)更新Q(v)

8.直到S有c个连通分量

9.end for

令X(v) ∈ Rd(v)×n表示第v个视图中的特征矩阵。特征矩阵 X(v) 具有 n 个数据点和 d(v) 维特征。 xi(v) ∈ Rd(v)×1 表示第 v 个视图中的数据点。数据集中有 nv 视图编号。

“B. Global Graph Learning”  B. 全局图学习

使用(2)中学习到的这些不同视图图 S(v) (v ∈ [1, nv]),我们通过(3)将它们集成到全局图 A 中。

 

根据 Fan 定理,(3) 可以改写为

其中γ是权衡参数

问题(11)中有三个变量,因此我们将(11)分为三个子问题。

第一个子问题是固定 P 和 wj(v) ,更新 aj 。

那么(11)就变成了

A的不同列是独立的,因此我们可以单独求解每一列

设 hij 表示 ‖pi − pj‖2​​2 ,则求解式(13)相当于优化以下问题:

(14)的求解与(7)的求解相同。--利用Lagrange函数

第二个子问题是固定 aj 和 wj(v) ,更新 P。

则 (11) 变为

式(15)的求解与式(10)的求解相同。

第三个子问题是固定 aj 和 P,更新 wj(v)。

那么,(11) 就变成

我们对(16)中的每个 i 进行独立优化,因此求解(16)等于优化以下问题:

表示 zj(v) = aj − wj(v) 且 Zj = [zj(1),zj(2),… ,zj(nv) ],则

其中 wj = [wj(1),wj(2),… ,wj(nv) ]T。

然后,(17) 的拉格朗日函数由下式给出

其中 φ 是拉格朗日乘数。

通过将 (19) 对 wj 的导数设置为零,我们有

由于约束 wjT 1 = 1 ,可以直接检查 (17) 关于 wj 的解是否由下式给出

我们求解(14)与求解(7)相同,求解(15)与求解(10)相同。由于范氏定理,aj 和 P 一起优化,而 wj 与它们无关,我们交替优化(14)和(15),直到 La 的前 c 个最小特征值之和为零。然后,我们通过(21)计算wj,然后再次优化(14)和(15)。我们重复优化过程,直到目标函数(3)收敛。

基于上述对优化问题(3)的分析,求解(3)的整体算法总结为算法2。


算法2:学习全局图A

1.输入:来自nv个视图的图集S = {S(1),S(2),…,S(nv)}和聚类数量c

2.输出:一个全局图A

3.初始化:将wj ∀j 的每个元素设置为1/nv,使用加权-和规则Σv=1 nvwj(v)sj(v) 获得图A0.由A0计算拉普拉斯矩阵L0。通过将L0代入La使用(15)初始化P。

4.while 未收敛 do

5.重复

6.通过求解(14)更新aj

7.通过求解(15)更新P

8.直到A有c个连通分量

9.将wj更新为(21)

10.end while

“C. Convergence Analysis” C. 收敛性分析

算法1的收敛性与算法2相同,因为它们的前两步是相似的。算法2的收敛性由定理2给出。

定理2:算法2中的交替更新规则在每次迭代中单调减小(3)的目标函数值,直至收敛。

证明:为了修复其他问题并更新 aj,可以直接检查 (14) 是凸函数 [39],因为 (14) 关于 aij 的二阶导数等于 1。然后,总体目标函数 (3 ) O(aj, P, wj) 单调递减

其中 t 表示迭代时间

根据[33],(15)的拉格朗日函数的Hessian矩阵是正半定的,因此目标函数(15)是凸问题。然后,修复其他并更新P,我们可以得到以下不等式:

因为 P 是通过固定A 和 wj,Pt+1 = arg minPT P=ITr(PT LAP) 更新。

(19) 的 Hessian 矩阵为

由(18)可知,wjTZjTZjwj =‖Zjwj‖22 ≥ 0,则Hessian矩阵(24)为半正定矩阵,因此(17)是关于wj的凸函数[39]。然后,为了修复其他问题并更新 wj,我们有

因此,(3) 的总体目标函数值在每次迭代中单调递减,直到算法 2 收敛。

“D. Computational Complexity Analysis”  D. 计算复杂度分析

两种算法的计算复杂度相同,因为它们的前两个步骤相似。

目标函数(3)的第一步是求解(12)。我们需要 O(n) 时间来计算 hj,其中 n 是数据点的数量,并且我们需要 O(t1nvn) 来求解 (14),其中 t1 是迭代次数,nv 是视图数量。我们需要n次来计算每个aj,∀j,因此算法2中(3)第一步的复杂度为O((t1nvn + n)n)。

第二步是特征分解过程,广义特征向量问题的复杂度为 O((n + c)n2),其中 c 是簇数。为了求解(15),我们需要计算拉普拉斯矩阵La的c个特征向量,因此其成本为O(cn2)。

第三步,我们需要O(nv2n)来计算ZjTZj 的项,并且需要O(nv3)来进行矩阵求逆。因为有n个数据点,所以我们需要对wj,∀j计算n次。那么,算法2中(3)的第三步的复杂度为O((nv2n + nv3)n)。

因此,(3)的总时间复杂度为

其中to是三个步骤的迭代次数。

由于n >> t1、n >> c、n >> nv,主要的复杂性是特征分解过程,这也是基于SC的方法中的基本计算。

“V. EXPERIMENTAL RESULTS” 五、实验结果

“A. Datasets” A. 数据集

1) UCI Digits: 数据集中有十类手写数字[40]。它们是“0”、“1”、...和“9”。每个数字有 200 个样本,因此有 2000 个数据点和 10 个类别。我们对每个数据点使用六个视图。第一个视图是 216 维轮廓相关特征,第二个是 76 维傅里叶系数特征,第三个是 64 维 Karhunen-Loeve 系数特征,第四个是 2 × 3 窗口中的 240 维强度平均特征,第五个是47-D Zernike矩特征,第六个是6-D形态特征。数据集的真实标签可用。

2) Caltech-101: 图像数据集有 101 类图像 [41]。我们选择广泛使用的七个类别并获得 1474 张图像 [22]。七个类别是面孔、摩托车、美元钞票、加菲猫、停车标志和温莎椅。每个图像由六个特征描述。第一个特征是 48-D Gabor 特征,第二个是 40-D 小波矩特征,第三个是 254-D CENTRIST 特征,第四个是 1984-D HOG 特征,第五个是 512-D D GIST 特征,第六个是 928-D LBP 特征。真实标签可用。

3)Notting-Hill:数据集是从电影“Notting-Hill”中提取的[42],[43]。数据集中有 5 个类别和 4660 张面部图像。每个面部图像由三个特征表示。第一个视图是 6750-D Gabor 特征,第二个视图是 3304-D LBP 特征,第三个视图是 2000-D 强度特征。真实标签可用。

4)COIL-20:数据集来自哥伦比亚物体图像库[44]。有 20 个对象类别的 1440 张图像 [30]。每个类包含 72 张图像。第一个视图是1024-D强度特征,第二个视图是3304-D LBP特征,第三个视图是6750-D Gabor特征。

“B. Experimental Setup” B. 实验设置

我们在两个合成数据集和四个真实数据集上评估了所提出的带有图学习的多视图聚类(MVGL)的性能。 MVGL 与 SC [25] 和最先进的多视图聚类方法进行比较,包括 CRSC [19]、鲁棒多视图 k 均值聚类(RMKMC)[28]、RMSC [21]、相似网络融合(SNF) ) [45]、MVSC [22] 和多核 k 均值聚类 (MKKM) 来证明其有效性。我们将 MVGL 与方法进行比较,包括以下内容。

1)SC[25]通常应用于每个单视图,以确认同时考虑多视图实际上会带来比任何单视图更优越的性能。

2)CRSC[19]是一种相对较早的多视图聚类方法。与SC一样,CRSC中不同视图的图都是由高斯函数构造的。我们按照作者的建议使用默认设置。

3)RMKMC[28]使用2,1-范数获得相对稳健的结果。根据作者的建议,我们在[0.1,2]范围内以0.2的间隔搜索其参数log10γ的对数以获得最佳参数。

4)RMSC[21]使用与SC和CRSC相同的图,并利用标准马尔可夫链进行聚类。按照作者的建议,其参数 λ 在 0.005 到 100 之间搜索。

5)SNF[45]使用k最近邻图,并迭代更新相似度矩阵。参数μ的设置按照作者的建议在[0.3,0.8]范围内以0.1的间隔搜索,其他参数默认。

6)MVSC[22]使用局部流形积分来融合异构特征,并加速图的构建。按照作者的建议,其参数 r 在 0.1 到 2 之间以对数 log10r 进行搜索,间隔为 0.2。

7)MKKM[46]是一种用于多视图聚类的多核学习方法。不同视图的核由高斯函数构造,并通过MKKM对这些核进行优化。为了获得聚类指标,MKKM还需要后处理k-means。根据作者的建议,我们从 {2−15, 2−14,...,215} 中搜索了正则化参数 λ。

不失一般性,对于八种方法,我们运行每种方法十次并报告平均性能和标准差。 SC、CRSC、RMSC、SNF、MVSC和MKKM在获得数据点的新表示后需要执行k-means,因此由于k-means聚类处理,每次实验的度量都不同。在每个实验中,我们运行 k-means 聚类处理 30 次,以减少随机初始化的影响,并报告这 30 次结果中 k-means 目标函数最小值的结果。

我们提出的 MVGL 不需要执行 k-means,它直接使用学习图获得聚类指标。每个连通分量属于一个簇,聚类指标是根据Tarjan的[35]强连通分量算法通过学习到的全局图直接获得的。算法1中有一个正则化参数β,算法2中有一个参数γ。在实践中,我们以启发式的方式确定这两个参数以加速过程[8]。因为收敛准则是L的前c个最小特征值之和为零,所以我们设置β = 1,然后如果S(v)的连通分量大于c则增加β,如果小于c则减少β迭代期间。正则化参数γ的设置策略与算法1中的β类似。由于收敛准则是La的前c个最小特征值之和为零,因此我们设置γ=1,然后如果S(v)小于c,迭代时如果大于c则减小γ。

使用七个指标:聚类准确度(ACC)、归一化互信息(NMI)、纯度、精确度、召回率、F 分数和调整兰德指数(ARI)来评估聚类性能。这些指标被广泛使用,可以通过将每个样本获得的标签与数据集提供的真实标签进行比较来计算它们。对于所有这些指标,值越大表示集群性能越好。

“C. Results on Synthetic Datasets” C. 综合数据集的结果

我们使用两个合成数据集来评估 MVGL 的聚类性能。我们的合成数据集由两个视图组成,它们的生成方式如下。

图 2. MVGL 在两月合成数据上学习的图。不同颜色的点表示 200 个数据点。 (a) 数据点为 X(1),线条为视图 1 中学习的 sij(1)。 (b) 数据点为 X(2),线条为视图 2 中学习的sij(2). (c) 数据点是 X(1),线条是学习到的 aij。

图 3. MVGL 在三环合成数据上学习的图。不同颜色的点表示 300 个数据点。 (a) 数据点为 X(1),线条为视图 1 中学习的 sij(1)。 (b) 数据点为 X(2),线条为视图 2 中学习的sij(2). (c) 数据点是 X(1),线条是学习到的 aij。

如图2和3所示,第一个是双月数据集,第二个是三圆数据集。在双月数据集中,X(1) 和 X(2) 都有 200 个数据点,我们添加 0.12% 和 0.14% 的噪声以获得双视图数据集。两月数据集中有两个簇,每个簇有 100 个样本。在三环数据集中,X(1)和X(2)都有300个数据点,我们添加0.14和0.16百分比的噪声以获得双视图数据集。三圈数据集中有 3 个簇,每个簇有 100 个样本。噪声相对较大,使得不同簇中的数据点彼此非常接近,并且不同视图中的学习图很好地整合成两个数据集中的全局图A,如图2和3所示。

“D. Results on Real Datasets” D. 真实数据集的结果

将所提出的方法与其他基线算法进行比较后,我们分别在表 I 中显示了 ACC、NMI、纯度、精度、召回率、F 分数和 ARI 方面的聚类结果。

在表I中,“SC1”表示在数据集的第一视图中执行SC,“SC2”表示在数据集的第二视图中执行SC,依此类推。

可以清楚地看到MVGL取得了最好的性能。 MVGL显着提高了聚类性能。定量结果充分证明了MVGL的优越性,因为MVGL更好地捕捉了数据空间的几何结构。该方法与基于SC和基于k均值聚类的方法不同,它可以获得结构更好的集成全局图,因此结果优于其他方法。令人惊讶的是,MVGL 在 Notting-Hill 数据集中获得了理想的结果。 Notting-Hill 人脸数据集是从约束良好的视频中提取的[43]。属于同一轨迹的人脸图像彼此非常相似[43],这意味着显着的低秩属性。因此,所提出的方法在低秩假设和集成的理想全局图下取得了更好的结果。

“E. Convergence Study” E. 趋同研究

为了解决(3),我们开发了具有高效迭代的算法2。在第IV-C节中,证明了算法2的收敛性。为了验证 MVGL 的收敛特性,图 4 显示了所有四个真实数据集上的收敛速度。

在每幅图中,x轴和y轴分别表示迭代次数和相应的目标函数值。我们可以看到,目标函数的值在 20 次迭代内急剧下降,然后随着迭代次数的增加而稳定。这表明 MVGL 充分收敛。

“VI. CONCLUSION” 六.结论

为了提高多视图聚类性能,提出了MVGL来提高图的质量。 MVGL 从不同的单视图图中学习全局图。集成的全局图具有反映集群指标的准确数量的连接组件。此外,MVGL 无需对 k 均值聚类或任何图割技术进行后处理即可获得聚类指标。开发了新的算法来解决所提出的目标函数。真实世界基准数据集上的实验结果证明了 MVGL 的有效性。


总结

A.起手式

相似度矩阵 S ∈ Rn×n 中的所有元素都是非负的,拉普拉斯矩阵 L

定理1:作为L的特征值0的重数c等于S的分量数。

当L的前c个最小特征值之和为零时,满足约束条件rank(L) = n − c。定理1表明,如果满足约束条件rank (L) = n − c,则S是理想的邻居分配,并且数据点已经划分为c簇。

则根据定理1,此时有

B.算法原理

为了规避平凡解,添加2-范数正则化来平滑S的元素,并添加S的每列之和为1的约束。

通过(2)获得每个视图图S(v),并且通过以下方式将不同的图S(v)整合成全局图A

根据定理1,(3)--> (11)

C.算法具体求解

C.1 首先求解(2)获得每个视图图S(v)

先固定Q,更新S -->(9)

再固定S,更新Q -->(10)

具体推导见第IV章A

其中 gj 表示 [g1j, g2j,...,gnj]T 。‖qi − qj‖22 记为 gij

式(10)可以通过计算L的特征向量来求解。

交替优化(9)和(10),直到 L 的前 c 个最小特征值之和为零。

C.2 求解(11)将不同的图S(v)整合成全局图A

固定 P 和 wj(v) ,更新 aj 。--> (14)

固定 aj 和 wj(v) ,更新 P。--> (15)

固定 aj 和 P,更新 wj(v)。--> (21) 

具体推导见论文第IV章B

hij 表示 ‖pi − pj‖22

C.3聚类指标是通过学习的全局图A获得的

无需执行图割技术和k-means聚类算法,如图1所示。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值