论文辅助学习+总结 “Latent Multi-view Subspace Clustering”

潜在多视图子空间聚类

“Abstract”

在本文中,我们提出了一种新颖的潜在多视图子空间聚类(LMSC)方法,该方法将具有潜在表示的数据点进行聚类,并同时探索来自多个视图的潜在互补信息。与大多数使用原始特征重建数据点的现有单视图子空间聚类方法不同,我们的方法寻求潜在的潜在表示,并同时根据学习的潜在表示执行数据重建。通过多个视图的互补性,潜在表示可以比每个单个视图更全面地描述数据本身,从而使子空间表示更加准确和鲁棒。该方法直观,并且可以通过使用交替方向最小化增强拉格朗日乘子(ALM-ADM)算法进行有效优化。对基准数据集的大量实验验证了我们提出的方法的有效性。

“1. Introduction” 一、简介

子空间聚类是许多应用中的基本且重要的技术,特别是对于高维数据。一般来说,子空间聚类方法[7,18,12]假设数据点是从对应于不同簇的多个子空间中提取的。最近,提出了基于自表示的子空间聚类,其中每个数据点可以用数据点本身的线性组合来表示。一般公式可以表示为

其中标量 α > 0 平衡重建误差和子空间表示 Z 的正则化。L(·,·)和Ω(·)分别表示损失函数和正则化项,它们通常基于不同的假设来定义。

例如,稀疏子空间聚类(SSC)[7] 基于 l1-范数在无限多个可能的表示中搜索最稀疏的表示。低秩表示聚类(LRR)[18]试图用低秩表示来揭示簇结构。平滑表示聚类(SMR)[12]深入分析了基于自表示方法的分组效果。基于自表示矩阵 Z,相似度矩阵通常由 S = abs(Z) + abs(ZT ) 构造,其中 abs(·) 是逐元素绝对运算符。最后,基于相似度矩阵S,通常对最终的聚类结果进行谱聚类算法[7,18,12]。

这些子空间聚类方法取得了有希望的性能,然而,它们通常受到原始特征质量的影响,特别是在观察不充分和/或严重损坏的情况下。因此,人们提出了多视图子空间聚类方法[3,31,9],其中每个数据点都用来自多个特征源的信息来描述。这些多视图表示包含来自多个线索的丰富信息,这可能有利于聚类任务。通过适当的多视图约束,这些子空间聚类方法已经显示出它们的威力。他们通常直接重建原始视图上的数据点,并为每个视图生成单独的子空间表示。然而,单独每个视图通常不足以描述数据点,这使得仅使用一个视图进行重建本身就存在风险。而且,数据收集可能存在噪声,这进一步增加了聚类的难度。

为了解决这些问题,在本文中,我们引入了一种潜在表示来探索数据点之间的关系并处理可能的噪声。正如[11, 26]所同意的,我们假设多个视图源自一个潜在的潜在表示,它可以本质上描述数据并揭示不同视图共享的共同潜在结构。基于这个假设,我们提出了潜在多视图子空间聚类(LMSC)方法。我们提出的方法基于多视图特征学习潜在表示,并生成公共子空间表示而不是单个视图的表示。此外,我们的方法将潜在表示学习和多视图子空间聚类集成在一个统一的框架中,并通过使用具有交替方向最小化策略的增强拉格朗日乘子来有效优化。与几种最先进的方法进行比较的广泛实验来评估我们的 LMSC 的性能。

“1.1. Related Work” 1.1.相关工作

一般来说,现有的多视图聚类方法大多属于基于图的模型范畴。早期的方法(例如,[6])通常集中在 2 视图情况。一些方法[20, 24]利用矩阵分解技术进行多视图聚类。子空间聚类方法[3,31,9]直接用原始视图上的数据集合本身来描述每个数据点。在谱聚类框架下,方法 [16, 15] 使假设在这些不同的视图中保持一致。为了解决大规模问题,在K-means算法框架下提出了一种鲁棒的大规模多视图聚类方法[20]。整合不同观点的另一种自然方式是多核学习(MKL)。 [4]中的工作证明了直接组合不同内核的有效性。此外,[25]中的研究人员提出了一种基于MKL的更通用的方法来学习不同内核的权重。值得注意的是,我们的方法使用综合多视图潜在表示来执行数据重建,而不是每个原始的单视图[3,31,9]。

最近,研究人员将子空间聚类方法[7, 18]扩展到基于潜在表示的子空间聚类。潜在空间稀疏子空间聚类(LS3C)方法[22]同时对SSC进行降维和稀疏编码。潜在低秩表示(LatLRR)[19]建立在LRR[18]之上,并使用观察数据和隐藏数据构建字典。对于多视图表示,一些方法[11, 26]明确地学习基于多个视图的公共表示作为具有公共子空间表示矩阵的联合优化问题。与LS3C对原始单视图数据进行降维不同,我们的方法恢复了潜在的多视图表示,并且在该潜在表示下同时学习了与不同视图对应的投影。最近还有一些关注其他主题的方法,例如降维[30]和特征选择[23]。

“2. Proposed Approach” 2. 提议的方法

在这项工作中,我们考虑具有多视图潜在表示的子空间聚类。给定 N 个多视图观测值 {[xi(1) ; ...; xi(V) ]}Ni=1 由 V 个不同的视图组成,我们的目标是为每个数据点推断一个共享的潜在表示 h。我们的方法假设这些不同的视图都源自一种潜在的潜在表示。


图 1:多视图潜在表示的图示。对应于不同视图的观测值 {X(v) }Vv=1 (V ≥ 2) 通过 {P(v) }Vv=1 从一个底层潜在表示 H 部分投影。

具体来说,如图 1 所示,来自不同视图的观察可以通过各自的模型 {P(1), ..., P(V )} 重建,并具有共享的潜在表示 H = {hi}Ni=1。因此,我们有 xi(v)  = P(v)hi。考虑到噪音,

其中 ei (v)表示对应于第 v 个视图的重建误差。

推断多视图潜在表示的目标函数如下

其中 X 和 P 分别是对齐的多视图观察和重建模型。 Lh(·,·) 表示与潜在(隐藏)表示相关的损失函数。

一般来说,借助多个视图的互补性,潜在表示 H 比单独对应于每个单个视图的表示更全面。

然后,基于潜在表示H,方程(1)基于自表示的子空间聚类的目标函数重新表述为:

其中Lr(·,·)表示与数据重建相关的损失函数,Z是重建系数矩阵。

我们将等式 (3) 中的潜在表示学习和等式(4) 中的子空间聚类整合转化为统一的目标函数,如下所示

其中 λ1 > 0 和 λ2 > 0 平衡这三项。

子空间聚类是通过合理的潜在表示和子空间重构的约束来保证的,而潜在表示是通过多视图的互补性来保证并通过子空间重构来改进的。考虑到异常值的鲁棒性,我们最终的目标函数如下

其中 || · ||* 是矩阵核范数,它强制子空间表示为低秩。 || · ||2,1 称为 l2,1-范数,它鼓励矩阵的列为零 [18],矩阵 (A) 的 l2,1-范数的定义为: ‖A‖ 2, 1 =  ΣDj=1 √  ΣCi=1 Aij2 其中 A ∈ RC×D。

基本假设是损坏是特定于样本的。我们约束 P,因为在没有约束的情况下,仅通过重新缩放 H/s 和 Ps (s > 0),同时保持相同的损失,就可以将 H 任意推近于零。

第一项用于确保学习到的潜在表示 H 和与不同视图相关的重建模型 P(v) 有利于重建观察结果,而第二项则惩罚潜在多视图子空间中的重建误差。最后一项通过强制子空间表示为低秩来防止平凡的解决方案。

我们方法的稳健性受益于两个方面。首先,由于多个视图的互补信息,潜在的多视图表示可以比单视图更全面地描述数据,从而导致后续更有希望的聚类结果。其次,前两项的 l2,1-范数是矩阵块范数,它比 Frobenius 范数对异常值具有更强的鲁棒性。

此外,我们沿着对应于潜在表示和子空间表示的错误列垂直连接在一起。通过积分的方式,它会强制Eh和Er列具有共同一致的幅度值,其有效性已被广泛证明。那么,我们提出的方法的目标函数具有以下形式

然后,有一个参数 λ > 0 来平衡误差和正则化。

“3. Optimization” 3、优化

在方程中(7)中我们的目标函数同时从多个视图中学习潜在表示,并找到关于潜在表示的有意义的相似度矩阵。尽管目标函数对于所有变量 P、H、Z、Eh 和 Er 不是共同凸的,但它们中的每一个都可以通过固定其他变量来有效求解。具有交替方向最小化 (ADM) 策略的增强拉格朗日乘子 (ALM) [17] 是解决我们问题的高效且有效的解决方案。为了对我们的问题采用 ADM 策略,我们需要使目标函数可分离。因此,我们引入一个辅助变量 J 来代替目标函数核项中的 Z。那么我们有下面的等价问题

上述目标函数可以通过最小化以下ALM问题来求解

请注意,为了方便起见,我们给出以下定义: Φ(C, D) = μ/2 ||D||F2 + 〈C, D〉,其中〈·,·〉定义矩阵内积,μ 为正数惩罚标量。

为了使用 ALM-ADM 优化我们的问题,我们将问题分为以下子问题。

1. P子问题:

为了更新P,我们通过固定其他变量来解决以下优化问题

定理 1. [13] 给定目标函数 minR ||Q − GR||F2 s.t. RTR = RRT = I,最优解为 R = UVT ,其中 U 和 V 为 GTQ 的 SVD 分解的左、右奇异值。

不难证明,P子问题的最优解是 PT = UVT ,其中 U 和 V 是 H(Y1 + X − Eh)T 的 SVD 的左右奇异值,因为我们有

(10) = argmin μ/2 ||X-PH-Eh||F2 + <Y1,X-PH-Eh>

           = argmin μ/2 [ ||X-PH-Eh||F2 + 2/μ <Y1,X-PH-Eh> + ||Y1||F2 /μ2]

    = 第三步

根据定理 1,如果我们将 P 约束为正交矩阵(即 PPT = PT P = I),则 P 子问题的最优解为 PT = UVT ,其中 U 和 V 为 SVD 的左右奇异值H(Y1/μ + X − Eh)T 的分解。为了效率,我们可以在实践中将 P 放宽为行正交(即 PPT = I,其中 P ∈ Rk×d,k ≪ d),并且在实践中也实现了有希望的性能和收敛性。

2.H子问题:

通过固定其他变量,我们通过以下规则更新 H

(11)= argmin μ/2 ||X-PH-Eh||F2 + <Y1,X-PH-Eh> + μ/2 ||H-HZ-Er||F2 + <Y2,H-HZ-Er>

= argmin μ/2 [ ||X-PH-Eh||F2 + 2/μ <Y1,X-PH-Eh> + ||Y1||F2 /μ2]  + μ/2 [ ||H-HZ-Er||F2 + 2/μ <Y2,H-HZ-Er> + ||Y2||F2 /μ2]  

= argmin μ/2[||X+Y1/μ-PH-Eh||F2 +||H+Y2/μ-HZ-Er||F2]

求导 μ/2 [2P(X+Y1/μ-PH-Eh) + 2(1-Z)(H+Y2/μ-HZ-Er) ] = 0

对 H 求导并将其设置为零,我们得到

上式是西尔维斯特方程[1]。为了避免不稳定问题,我们确保 A 严格正定为 ˆA  = A+εI,其中 I 是单位矩阵,0 < ε ≪ 1。

命题1.西尔维斯特方程(12)有唯一解。

证明:当 A 和 -B 没有共同特征值时,西尔维斯特方程 AH + HB = C 对 H 具有唯一解 [1]。由于 ˆA 是正定矩阵,所以它的所有特征值都是正的:αi > 0。而由于 B 是半正定矩阵,所以它的所有特征值都是非负的:βi ≥ 0。因此,对于A和B,αi+βj>0。因此,Sylvester方程(12)有唯一解。

注:为了求解 Sylvester 方程,采用 BartelsStewart 算法 [1]。该算法首先通过QR分解将系数矩阵变换为Schur形式。然后通过回代法求解得到的三角方程组。还值得注意的是,在 PPT = PPT = I 下,我们的方法可以被精确求解,即 A = PTP 是严格正定的,无需引入扰动(对于 H 子问题),并且定理 1 完全适用于 P 子问题。为了提高实际使用的效率,我们可以通过将 P 放宽为行正交来学习低维潜在表示,即 PPT = I,然后我们应该引入一个小扰动以确保其严格正定。

3. Z子问题:

固定其他变量,我们通过解决以下问题来更新Z

对 Z 求导并将其设置为零,我们得到

4.E子问题:

通过解决以下问题来更新重建误差E

其中 G 是通过垂直连接矩阵 X − PH + Y1/μ 和 H − HZ + Y2/μ 形成的。这个子问题可以通过[18]中的引理3.2有效地解决。

5. J子问题:

固定其他变量,关于J的拉格朗日函数可以写为

上述问题可以通过奇异值阈值算子[2]有效解决。

6. 更新乘数:

我们通过以下方式更新乘数

直观上,乘数根据违反等式约束的情况按比例更新。

请注意,简单地将块变量 H 初始化为零是不合适的,因为这样,最优 H(参见等式(11)中的 H 子问题)将为零。然后,所有其他子问题(例如方程(13)中的 Z 子问题)的后续优化将变得微不足道。基于此,我们在实践中随机初始化H,也可以使用其他预处理方式(例如PCA)初始化H,以避免结果不稳定。

算法1:LMSC的优化算法

输入:多视图矩阵:[X(1),…,X(V)],参数λ和潜在表示H的维度K

初始化:P=0,Er = 0,Eh = 0,J = Z = 0,Y1 = 0, Y2 = 0, Y3 = 0,μ = 10-6,ρ = 1.1,ε = 10-4,maxμ = 106,用随机数初始化H。

while 未收敛 do

根据子问题1-5更新P,H,Z,Eh,Er ,J

根据子问题6更新Y1 , Y2 , Y3

根据μ = min(ρμ,maxμ )更新参数μ

确定收敛条件:

end

输出:Z,H,P,E

“3.1. Complexity and Convergence” 3.1.复杂性和收敛性

我们的方法由六个子问题组成。完整的算法如算法1所示。更新P的复杂度为O(k2d + d3),其中k、d和n分别是潜在表示的维度、多视图特征的总维度和数据的样本数。其他子问题的复杂度如下: 对于更新J(核范数近端算子),复杂度为O(n3) 。对于更新H,Sylvester方程的经典算法是Bartels Stewart算法[1],其复杂度为O(k3)。对于更新Z,主要的复杂度是矩阵求逆,其复杂度为O(n3)。对于更新 E 和乘数,主要复杂度是矩阵乘法,即 O(dkn + kn2)。总体而言,每次迭代的总复杂度为 O(k2d + d3 + k3 + n3 + dkn + kn2)。在k<d的情况下,总复杂度基本上是O(d3+n3)。很难普遍证明我们的算法的收敛性。幸运的是,所提供的合成数据和实际数据的经验证据表明,即使随机初始化 H,所提出的算法也具有非常强且稳定的收敛行为。

注. 1)我们的模型中采用的线性投影对于高维数据来说是一种简单但有效的技术,并且实际上在实践中很容易解决。非线性可以引入到基于核技术的模型中,这将在我们未来的工作中考虑。 2)对于P子问题,虽然在完整情况下(即P是方阵)给出了严格的正确性,但在实践中用低维投影观察到了有希望的结果。此外,给定其他约束(例如,||P(:, j)||2 ≤ 1)而不是 PPT = I,ADMM 可以用来解决这个子问题 [10]。尽管实现了相似的性能,但内部 ADMM 使算法更加复杂。

“4. Experiments” 4. 实验

“4.1. Experiment Setting” 4.1.实验设置

我们使用合成数据和真实世界数据集进行评估。综合数据用于验证使用多个视图的有效性。这些真实世界的数据集如下:MSRCV1 [28] 由 240 个图像和 8 个对象类组成。我们选择7个类,即树、建筑、飞机、牛、人脸、汽车和自行车,并提取6种类型的特征:CENT(视图1)、CMT(视图2)、GIST(视图3)、HOG(视图4)、LBP( view5), (SIFT(view6)从每幅图像构建不同的视图特征。Scene-15[8]数据集包含室内和室外环境的15个场景类别,总共4485张图像。三种常见的图像特征GIST(view1)、PHOG (view2) 和 LBP (view3) 的使用与 [5] 类似。ORL1 包含 40 个不同受试者中每一个的 10 个不同图像。对于 Yale 和 ORL,三种类型的特征:强度 (view1)、LBP (view2) 和 Gabor使用(view3)。每个类别有200到400张图像。LandUse-21 [29]由21个类别的卫星图像组成,每个类别100张图像。使用的特征与Scene-15相同。Still DB [14]由467个组成具有 6 类动作的图像。提取了三个特征,即 Sift Bow (view1)、Color Sift Bow (view2) 和 Shape context Bow (view3)。BBCSport2 包含来自 BBC Sport 网站的 5 个主题体育新闻对应的文档区域,与 2 个视图相关联 [27]。

1http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html

2http://mlg.ucd.ie/datasets/

我们将我们的方法与以下基线进行比较。 SPCBestSV 是具有最佳单视图的标准谱聚类。 LRRBestSV 是单视图最好的 LRR [18]。 Min-Disagreement [6] 创建一个二部图,并基于最小化分歧思想。由于其局限性,我们报告了 2 视图最佳结果。 Co-Reg SPC [16] 共同规范聚类假设,以强制不同的观点保持一致。 RMSC [27] 恢复共享的低秩转移概率矩阵作为标准马尔可夫链的输入。

对于评估指标,我们使用NMI(归一化互信息)、ACC(准确性)、F-measure和RI(兰德指数)来综合评估性能。请注意,值越高表示所有指标的性能越好。对于比较方法,我们将所有参数调整到最佳性能。对于我们的方法,我们将所有数据集的潜在表示的维度设置为 K = 100,并从 {0.001, 0.01, 0.1, 1, 10, 100, 1000} 调整参数 λ。

我们对每种方法运行 30 次并报告平均值和标准差。

“4.2. Results on Synthetic Data” 4.2.综合数据结果

我们首先在合成数据上评估我们的方法。首先生成每个矩阵,其中每个元素都是从 [0, 1] 区间上的均匀分布独立采样的。我们生成由 6 个簇(或子空间)组成的合成数据。这些子空间中的样本数量分别为{25,30,35,40,45,50}。我们首先统一生成矩阵 H ∈ RK×N 作为潜在表示,维度 K = 90,数据点数 N = 225。子空间具有不相交的特征,有 10、12、14、16、18 和 20 个特征,分别。然后根据潜在表示矩阵 H 生成两个不同的视图,其中 X(v) = P(v)H + E(v)。我们考虑E(v) 的两种类型的噪声,即全局噪声 Eg(v) 和样本特定噪声 Es(v) 。形式上,我们有  E(v) =  Es(v)+ α Eg(v) 。对于样本特定噪声  Es(v),我们随机生成一个矩阵,然后随机选择几列(实验中为 20 列),将其他列设置为零。而对于全局噪声,我们随机生成一个矩阵  Eu(v)并将其与系数 α 相乘来控制噪声幅度。

如图2(a)所示,在不同程度的噪声下,在多视图的帮助下,我们的方法比仅使用单视图的结果取得了更有希望的结果。图2(b)是分别对应于α = 0.5的单视图(左)和多视图(右)的相似度矩阵的可视化示例。显然,与多个视图相对应的相似度矩阵更好地揭示了底层的簇结构。

“4.3. Results on Real Datasets” 4.3.真实数据集的结果

表1给出了不同聚类方法的聚类结果。

从大局来看,我们的方法大大优于所有基线。以MSRCV1数据集为例,我们的方法在NMI和准确率方面分别优于第二名Min-Disagreement,分别约为4.7%和11.3%。应该指出的是,大多数比较方法的性能在不同数据集上并不稳健。例如,由于最佳两个视图的组合,MinDisagreement 在 ACC 方面在 Still DB 上实现了最佳性能。然而,其他数据集上的表现并不那么有希望。

为了进一步研究我们方法的改进,我们分别对每个单一视图和学习到的潜在表示进行 k 均值。

根据表2的结果,潜在表示的聚类性能通常优于每个单一视图的聚类性能,这从经验上证明了潜在表示比每个单一视图更合理。为了更直观,我们对数据集 MSRCV1 使用 t-Distributed Stochastic Neighbor Embedding (t-SNE) [21] 可视化不同的视图和学习到的潜在表示,如图 3 所示。

可以看出,该图与聚类结果如表2所示。具体来说,图3(c)-(d)(对应view-3和view-4)更好地揭示了底层聚类结构,并且在view-3和view上的聚类性能要高得多-4 比其他观点。图3(g)(对应于潜在表示)清楚地展示了学习的潜在表示的优势,例如,红色、深蓝色、青色和黄色的簇比每个单个视图的簇更紧凑。

我们还给出了参数调整实验(在 BBCSport 上),如图 4 所示。

可以看出,我们的方法的性能相对稳定且有前途,因为相对较大的值(λ ≥ 0.01)就足够了。

“5. Conclusions” 5。结论

我们引入多视图潜在表示来探索数据的多个视图,在此基础上改进子空间聚类。我们的主要新颖之处在于利用不同视图之间的互补性进行子空间聚类,并且多视图潜在表示在每个视图都源自一个潜在潜在表示的假设下对互补性进行编码。这与大多数直接在每个单一视图内重建数据点的现有方法不同。学习到的多视图潜在表示和基于自我表示的聚类可以很好地相互改进。由于基于多视图和结构稀疏性的潜在表示,我们的方法相对稳健。未来,我们将考虑大规模数据,并将核技术的非线性引入到我们的模型中。

” 潜在多视图子空间聚类

“Abstract”

在本文中,我们提出了一种新颖的潜在多视图子空间聚类(LMSC)方法,该方法将具有潜在表示的数据点进行聚类,并同时探索来自多个视图的潜在互补信息。与大多数使用原始特征重建数据点的现有单视图子空间聚类方法不同,我们的方法寻求潜在的潜在表示,并同时根据学习的潜在表示执行数据重建。通过多个视图的互补性,潜在表示可以比每个单个视图更全面地描述数据本身,从而使子空间表示更加准确和鲁棒。该方法直观,并且可以通过使用交替方向最小化增强拉格朗日乘子(ALM-ADM)算法进行有效优化。对基准数据集的大量实验验证了我们提出的方法的有效性。

“1. Introduction” 一、简介

子空间聚类是许多应用中的基本且重要的技术,特别是对于高维数据。一般来说,子空间聚类方法[7,18,12]假设数据点是从对应于不同簇的多个子空间中提取的。最近,提出了基于自表示的子空间聚类,其中每个数据点可以用数据点本身的线性组合来表示。一般公式可以表示为

其中标量 α > 0 平衡重建误差和子空间表示 Z 的正则化。L(·,·)和Ω(·)分别表示损失函数和正则化项,它们通常基于不同的假设来定义。

例如,稀疏子空间聚类(SSC)[7] 基于 l1-范数在无限多个可能的表示中搜索最稀疏的表示。低秩表示聚类(LRR)[18]试图用低秩表示来揭示簇结构。平滑表示聚类(SMR)[12]深入分析了基于自表示方法的分组效果。基于自表示矩阵 Z,相似度矩阵通常由 S = abs(Z) + abs(ZT ) 构造,其中 abs(·) 是逐元素绝对运算符。最后,基于相似度矩阵S,通常对最终的聚类结果进行谱聚类算法[7,18,12]。

这些子空间聚类方法取得了有希望的性能,然而,它们通常受到原始特征质量的影响,特别是在观察不充分和/或严重损坏的情况下。因此,人们提出了多视图子空间聚类方法[3,31,9],其中每个数据点都用来自多个特征源的信息来描述。这些多视图表示包含来自多个线索的丰富信息,这可能有利于聚类任务。通过适当的多视图约束,这些子空间聚类方法已经显示出它们的威力。他们通常直接重建原始视图上的数据点,并为每个视图生成单独的子空间表示。然而,单独每个视图通常不足以描述数据点,这使得仅使用一个视图进行重建本身就存在风险。而且,数据收集可能存在噪声,这进一步增加了聚类的难度。

为了解决这些问题,在本文中,我们引入了一种潜在表示来探索数据点之间的关系并处理可能的噪声。正如[11, 26]所同意的,我们假设多个视图源自一个潜在的潜在表示,它可以本质上描述数据并揭示不同视图共享的共同潜在结构。基于这个假设,我们提出了潜在多视图子空间聚类(LMSC)方法。我们提出的方法基于多视图特征学习潜在表示,并生成公共子空间表示而不是单个视图的表示。此外,我们的方法将潜在表示学习和多视图子空间聚类集成在一个统一的框架中,并通过使用具有交替方向最小化策略的增强拉格朗日乘子来有效优化。与几种最先进的方法进行比较的广泛实验来评估我们的 LMSC 的性能。

“1.1. Related Work” 1.1.相关工作

一般来说,现有的多视图聚类方法大多属于基于图的模型范畴。早期的方法(例如,[6])通常集中在 2 视图情况。一些方法[20, 24]利用矩阵分解技术进行多视图聚类。子空间聚类方法[3,31,9]直接用原始视图上的数据集合本身来描述每个数据点。在谱聚类框架下,方法 [16, 15] 使假设在这些不同的视图中保持一致。为了解决大规模问题,在K-means算法框架下提出了一种鲁棒的大规模多视图聚类方法[20]。整合不同观点的另一种自然方式是多核学习(MKL)。 [4]中的工作证明了直接组合不同内核的有效性。此外,[25]中的研究人员提出了一种基于MKL的更通用的方法来学习不同内核的权重。值得注意的是,我们的方法使用综合多视图潜在表示来执行数据重建,而不是每个原始的单视图[3,31,9]。

最近,研究人员将子空间聚类方法[7, 18]扩展到基于潜在表示的子空间聚类。潜在空间稀疏子空间聚类(LS3C)方法[22]同时对SSC进行降维和稀疏编码。潜在低秩表示(LatLRR)[19]建立在LRR[18]之上,并使用观察数据和隐藏数据构建字典。对于多视图表示,一些方法[11, 26]明确地学习基于多个视图的公共表示作为具有公共子空间表示矩阵的联合优化问题。与LS3C对原始单视图数据进行降维不同,我们的方法恢复了潜在的多视图表示,并且在该潜在表示下同时学习了与不同视图对应的投影。最近还有一些关注其他主题的方法,例如降维[30]和特征选择[23]。

“2. Proposed Approach” 2. 提议的方法

在这项工作中,我们考虑具有多视图潜在表示的子空间聚类。给定 N 个多视图观测值 {[xi(1) ; ...; xi(V) ]}Ni=1 由 V 个不同的视图组成,我们的目标是为每个数据点推断一个共享的潜在表示 h。我们的方法假设这些不同的视图都源自一种潜在的潜在表示。


图 1:多视图潜在表示的图示。对应于不同视图的观测值 {X(v) }Vv=1 (V ≥ 2) 通过 {P(v) }Vv=1 从一个底层潜在表示 H 部分投影。

具体来说,如图 1 所示,来自不同视图的观察可以通过各自的模型 {P(1), ..., P(V )} 重建,并具有共享的潜在表示 H = {hi}Ni=1。因此,我们有 xi(v)  = P(v)hi。考虑到噪音,

其中 ei (v)表示对应于第 v 个视图的重建误差。

推断多视图潜在表示的目标函数如下

其中 X 和 P 分别是对齐的多视图观察和重建模型。 Lh(·,·) 表示与潜在(隐藏)表示相关的损失函数。

一般来说,借助多个视图的互补性,潜在表示 H 比单独对应于每个单个视图的表示更全面。

然后,基于潜在表示H,方程(1)基于自表示的子空间聚类的目标函数重新表述为:

其中Lr(·,·)表示与数据重建相关的损失函数,Z是重建系数矩阵。

我们将等式 (3) 中的潜在表示学习和等式(4) 中的子空间聚类整合转化为统一的目标函数,如下所示

其中 λ1 > 0 和 λ2 > 0 平衡这三项。

子空间聚类是通过合理的潜在表示和子空间重构的约束来保证的,而潜在表示是通过多视图的互补性来保证并通过子空间重构来改进的。考虑到异常值的鲁棒性,我们最终的目标函数如下

其中 || · ||* 是矩阵核范数,它强制子空间表示为低秩。 || · ||2,1 称为 l2,1-范数,它鼓励矩阵的列为零 [18],矩阵 (A) 的 l2,1-范数的定义为: ‖A‖ 2, 1 =  ΣDj=1 √  ΣCi=1 Aij2 其中 A ∈ RC×D。

基本假设是损坏是特定于样本的。我们约束 P,因为在没有约束的情况下,仅通过重新缩放 H/s 和 Ps (s > 0),同时保持相同的损失,就可以将 H 任意推近于零。

第一项用于确保学习到的潜在表示 H 和与不同视图相关的重建模型 P(v) 有利于重建观察结果,而第二项则惩罚潜在多视图子空间中的重建误差。最后一项通过强制子空间表示为低秩来防止平凡的解决方案。

我们方法的稳健性受益于两个方面。首先,由于多个视图的互补信息,潜在的多视图表示可以比单视图更全面地描述数据,从而导致后续更有希望的聚类结果。其次,前两项的 l2,1-范数是矩阵块范数,它比 Frobenius 范数对异常值具有更强的鲁棒性。

此外,我们沿着对应于潜在表示和子空间表示的错误列垂直连接在一起。通过积分的方式,它会强制Eh和Er列具有共同一致的幅度值,其有效性已被广泛证明。那么,我们提出的方法的目标函数具有以下形式

然后,有一个参数 λ > 0 来平衡误差和正则化。

“3. Optimization” 3、优化

在方程中(7)中我们的目标函数同时从多个视图中学习潜在表示,并找到关于潜在表示的有意义的相似度矩阵。尽管目标函数对于所有变量 P、H、Z、Eh 和 Er 不是共同凸的,但它们中的每一个都可以通过固定其他变量来有效求解。具有交替方向最小化 (ADM) 策略的增强拉格朗日乘子 (ALM) [17] 是解决我们问题的高效且有效的解决方案。为了对我们的问题采用 ADM 策略,我们需要使目标函数可分离。因此,我们引入一个辅助变量 J 来代替目标函数核项中的 Z。那么我们有下面的等价问题

上述目标函数可以通过最小化以下ALM问题来求解

请注意,为了方便起见,我们给出以下定义: Φ(C, D) = μ/2 ||D||F2 + 〈C, D〉,其中〈·,·〉定义矩阵内积,μ 为正数惩罚标量。

为了使用 ALM-ADM 优化我们的问题,我们将问题分为以下子问题。

1. P子问题:

为了更新P,我们通过固定其他变量来解决以下优化问题

定理 1. [13] 给定目标函数 minR ||Q − GR||F2 s.t. RTR = RRT = I,最优解为 R = UVT ,其中 U 和 V 为 GTQ 的 SVD 分解的左、右奇异值。

不难证明,P子问题的最优解是 PT = UVT ,其中 U 和 V 是 H(Y1 + X − Eh)T 的 SVD 的左右奇异值,因为我们有

(10) = argmin μ/2 ||X-PH-Eh||F2 + <Y1,X-PH-Eh>

           = argmin μ/2 [ ||X-PH-Eh||F2 + 2/μ <Y1,X-PH-Eh> + ||Y1||F2 /μ2]

    = 第三步

根据定理 1,如果我们将 P 约束为正交矩阵(即 PPT = PT P = I),则 P 子问题的最优解为 PT = UVT ,其中 U 和 V 为 SVD 的左右奇异值H(Y1/μ + X − Eh)T 的分解。为了效率,我们可以在实践中将 P 放宽为行正交(即 PPT = I,其中 P ∈ Rk×d,k ≪ d),并且在实践中也实现了有希望的性能和收敛性。

2.H子问题:

通过固定其他变量,我们通过以下规则更新 H

(11)= argmin μ/2 ||X-PH-Eh||F2 + <Y1,X-PH-Eh> + μ/2 ||H-HZ-Er||F2 + <Y2,H-HZ-Er>

= argmin μ/2 [ ||X-PH-Eh||F2 + 2/μ <Y1,X-PH-Eh> + ||Y1||F2 /μ2]  + μ/2 [ ||H-HZ-Er||F2 + 2/μ <Y2,H-HZ-Er> + ||Y2||F2 /μ2]  

= argmin μ/2[||X+Y1/μ-PH-Eh||F2 +||H+Y2/μ-HZ-Er||F2]

求导 μ/2 [2P(X+Y1/μ-PH-Eh) + 2(1-Z)(H+Y2/μ-HZ-Er) ] = 0

对 H 求导并将其设置为零,我们得到

上式是西尔维斯特方程[1]。为了避免不稳定问题,我们确保 A 严格正定为 ˆA  = A+εI,其中 I 是单位矩阵,0 < ε ≪ 1。

命题1.西尔维斯特方程(12)有唯一解。

证明:当 A 和 -B 没有共同特征值时,西尔维斯特方程 AH + HB = C 对 H 具有唯一解 [1]。由于 ˆA 是正定矩阵,所以它的所有特征值都是正的:αi > 0。而由于 B 是半正定矩阵,所以它的所有特征值都是非负的:βi ≥ 0。因此,对于A和B,αi+βj>0。因此,Sylvester方程(12)有唯一解。

注:为了求解 Sylvester 方程,采用 BartelsStewart 算法 [1]。该算法首先通过QR分解将系数矩阵变换为Schur形式。然后通过回代法求解得到的三角方程组。还值得注意的是,在 PPT = PPT = I 下,我们的方法可以被精确求解,即 A = PTP 是严格正定的,无需引入扰动(对于 H 子问题),并且定理 1 完全适用于 P 子问题。为了提高实际使用的效率,我们可以通过将 P 放宽为行正交来学习低维潜在表示,即 PPT = I,然后我们应该引入一个小扰动以确保其严格正定。

3. Z子问题:

固定其他变量,我们通过解决以下问题来更新Z

对 Z 求导并将其设置为零,我们得到

4.E子问题:

通过解决以下问题来更新重建误差E

其中 G 是通过垂直连接矩阵 X − PH + Y1/μ 和 H − HZ + Y2/μ 形成的。这个子问题可以通过[18]中的引理3.2有效地解决。

5. J子问题:

固定其他变量,关于J的拉格朗日函数可以写为

上述问题可以通过奇异值阈值算子[2]有效解决。

6. 更新乘数:

我们通过以下方式更新乘数

直观上,乘数根据违反等式约束的情况按比例更新。

请注意,简单地将块变量 H 初始化为零是不合适的,因为这样,最优 H(参见等式(11)中的 H 子问题)将为零。然后,所有其他子问题(例如方程(13)中的 Z 子问题)的后续优化将变得微不足道。基于此,我们在实践中随机初始化H,也可以使用其他预处理方式(例如PCA)初始化H,以避免结果不稳定。

算法1:LMSC的优化算法

输入:多视图矩阵:[X(1),…,X(V)],参数λ和潜在表示H的维度K

初始化:P=0,Er = 0,Eh = 0,J = Z = 0,Y1 = 0, Y2 = 0, Y3 = 0,μ = 10-6,ρ = 1.1,ε = 10-4,maxμ = 106,用随机数初始化H。

while 未收敛 do

根据子问题1-5更新P,H,Z,Eh,Er ,J

根据子问题6更新Y1 , Y2 , Y3

根据μ = min(ρμ,maxμ )更新参数μ

确定收敛条件:

end

输出:Z,H,P,E

“3.1. Complexity and Convergence” 3.1.复杂性和收敛性

我们的方法由六个子问题组成。完整的算法如算法1所示。更新P的复杂度为O(k2d + d3),其中k、d和n分别是潜在表示的维度、多视图特征的总维度和数据的样本数。其他子问题的复杂度如下: 对于更新J(核范数近端算子),复杂度为O(n3) 。对于更新H,Sylvester方程的经典算法是Bartels Stewart算法[1],其复杂度为O(k3)。对于更新Z,主要的复杂度是矩阵求逆,其复杂度为O(n3)。对于更新 E 和乘数,主要复杂度是矩阵乘法,即 O(dkn + kn2)。总体而言,每次迭代的总复杂度为 O(k2d + d3 + k3 + n3 + dkn + kn2)。在k<d的情况下,总复杂度基本上是O(d3+n3)。很难普遍证明我们的算法的收敛性。幸运的是,所提供的合成数据和实际数据的经验证据表明,即使随机初始化 H,所提出的算法也具有非常强且稳定的收敛行为。

注. 1)我们的模型中采用的线性投影对于高维数据来说是一种简单但有效的技术,并且实际上在实践中很容易解决。非线性可以引入到基于核技术的模型中,这将在我们未来的工作中考虑。 2)对于P子问题,虽然在完整情况下(即P是方阵)给出了严格的正确性,但在实践中用低维投影观察到了有希望的结果。此外,给定其他约束(例如,||P(:, j)||2 ≤ 1)而不是 PPT = I,ADMM 可以用来解决这个子问题 [10]。尽管实现了相似的性能,但内部 ADMM 使算法更加复杂。

“4. Experiments” 4. 实验

“4.1. Experiment Setting” 4.1.实验设置

我们使用合成数据和真实世界数据集进行评估。综合数据用于验证使用多个视图的有效性。这些真实世界的数据集如下:MSRCV1 [28] 由 240 个图像和 8 个对象类组成。我们选择7个类,即树、建筑、飞机、牛、人脸、汽车和自行车,并提取6种类型的特征:CENT(视图1)、CMT(视图2)、GIST(视图3)、HOG(视图4)、LBP( view5), (SIFT(view6)从每幅图像构建不同的视图特征。Scene-15[8]数据集包含室内和室外环境的15个场景类别,总共4485张图像。三种常见的图像特征GIST(view1)、PHOG (view2) 和 LBP (view3) 的使用与 [5] 类似。ORL1 包含 40 个不同受试者中每一个的 10 个不同图像。对于 Yale 和 ORL,三种类型的特征:强度 (view1)、LBP (view2) 和 Gabor使用(view3)。每个类别有200到400张图像。LandUse-21 [29]由21个类别的卫星图像组成,每个类别100张图像。使用的特征与Scene-15相同。Still DB [14]由467个组成具有 6 类动作的图像。提取了三个特征,即 Sift Bow (view1)、Color Sift Bow (view2) 和 Shape context Bow (view3)。BBCSport2 包含来自 BBC Sport 网站的 5 个主题体育新闻对应的文档区域,与 2 个视图相关联 [27]。

1http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html

2http://mlg.ucd.ie/datasets/

我们将我们的方法与以下基线进行比较。 SPCBestSV 是具有最佳单视图的标准谱聚类。 LRRBestSV 是单视图最好的 LRR [18]。 Min-Disagreement [6] 创建一个二部图,并基于最小化分歧思想。由于其局限性,我们报告了 2 视图最佳结果。 Co-Reg SPC [16] 共同规范聚类假设,以强制不同的观点保持一致。 RMSC [27] 恢复共享的低秩转移概率矩阵作为标准马尔可夫链的输入。

对于评估指标,我们使用NMI(归一化互信息)、ACC(准确性)、F-measure和RI(兰德指数)来综合评估性能。请注意,值越高表示所有指标的性能越好。对于比较方法,我们将所有参数调整到最佳性能。对于我们的方法,我们将所有数据集的潜在表示的维度设置为 K = 100,并从 {0.001, 0.01, 0.1, 1, 10, 100, 1000} 调整参数 λ。

我们对每种方法运行 30 次并报告平均值和标准差。

“4.2. Results on Synthetic Data” 4.2.综合数据结果

我们首先在合成数据上评估我们的方法。首先生成每个矩阵,其中每个元素都是从 [0, 1] 区间上的均匀分布独立采样的。我们生成由 6 个簇(或子空间)组成的合成数据。这些子空间中的样本数量分别为{25,30,35,40,45,50}。我们首先统一生成矩阵 H ∈ RK×N 作为潜在表示,维度 K = 90,数据点数 N = 225。子空间具有不相交的特征,有 10、12、14、16、18 和 20 个特征,分别。然后根据潜在表示矩阵 H 生成两个不同的视图,其中 X(v) = P(v)H + E(v)。我们考虑E(v) 的两种类型的噪声,即全局噪声 Eg(v) 和样本特定噪声 Es(v) 。形式上,我们有  E(v) =  Es(v)+ α Eg(v) 。对于样本特定噪声  Es(v),我们随机生成一个矩阵,然后随机选择几列(实验中为 20 列),将其他列设置为零。而对于全局噪声,我们随机生成一个矩阵  Eu(v)并将其与系数 α 相乘来控制噪声幅度。

如图2(a)所示,在不同程度的噪声下,在多视图的帮助下,我们的方法比仅使用单视图的结果取得了更有希望的结果。图2(b)是分别对应于α = 0.5的单视图(左)和多视图(右)的相似度矩阵的可视化示例。显然,与多个视图相对应的相似度矩阵更好地揭示了底层的簇结构。

“4.3. Results on Real Datasets” 4.3.真实数据集的结果

表1给出了不同聚类方法的聚类结果。

从大局来看,我们的方法大大优于所有基线。以MSRCV1数据集为例,我们的方法在NMI和准确率方面分别优于第二名Min-Disagreement,分别约为4.7%和11.3%。应该指出的是,大多数比较方法的性能在不同数据集上并不稳健。例如,由于最佳两个视图的组合,MinDisagreement 在 ACC 方面在 Still DB 上实现了最佳性能。然而,其他数据集上的表现并不那么有希望。

为了进一步研究我们方法的改进,我们分别对每个单一视图和学习到的潜在表示进行 k 均值。

根据表2的结果,潜在表示的聚类性能通常优于每个单一视图的聚类性能,这从经验上证明了潜在表示比每个单一视图更合理。为了更直观,我们对数据集 MSRCV1 使用 t-Distributed Stochastic Neighbor Embedding (t-SNE) [21] 可视化不同的视图和学习到的潜在表示,如图 3 所示。

可以看出,该图与聚类结果如表2所示。具体来说,图3(c)-(d)(对应view-3和view-4)更好地揭示了底层聚类结构,并且在view-3和view上的聚类性能要高得多-4 比其他观点。图3(g)(对应于潜在表示)清楚地展示了学习的潜在表示的优势,例如,红色、深蓝色、青色和黄色的簇比每个单个视图的簇更紧凑。

我们还给出了参数调整实验(在 BBCSport 上),如图 4 所示。

可以看出,我们的方法的性能相对稳定且有前途,因为相对较大的值(λ ≥ 0.01)就足够了。

“5. Conclusions” 5。结论

我们引入多视图潜在表示来探索数据的多个视图,在此基础上改进子空间聚类。我们的主要新颖之处在于利用不同视图之间的互补性进行子空间聚类,并且多视图潜在表示在每个视图都源自一个潜在潜在表示的假设下对互补性进行编码。这与大多数直接在每个单一视图内重建数据点的现有方法不同。学习到的多视图潜在表示和基于自我表示的聚类可以很好地相互改进。由于基于多视图和结构稀疏性的潜在表示,我们的方法相对稳健。未来,我们将考虑大规模数据,并将核技术的非线性引入到我们的模型中。


总结

LMSC算法

基于自表示的子空间聚类,其中每个数据点可以用数据点本身的线性组合来表示。一般公式可以表示为

 

其中标量 α > 0 平衡重建误差和子空间表示 Z 的正则化。L(·,·)和Ω(·)分别表示损失函数和正则化项,它们通常基于不同的假设来定义。

对于LMSC算法:

假设多个视图源自一个潜在的潜在表示,它可以本质上描述数据并揭示不同视图共享的共同潜在结构

目标为每个数据点推断一个共享的潜在表示 h。

目标函数具有以下形式

然后,有一个参数 λ > 0 来平衡误差和正则化。

引入辅助变量J=Z,有下面的等价问题

上述目标函数可以通过最小化以下ALM问题来求解

请注意,为了方便起见,我们给出以下定义: Φ(C, D) = μ/2 ||D||F2 + 〈C, D〉,其中〈·,·〉定义矩阵内积,μ 为正数惩罚标量。

上述ALM问题可以分为6个子问题,交替优化更新求解。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值