Consistency Enhancement-Based Deep Multiview Clustering via Contrastive Learning

代码:https://anonymous.4open.science/r/CCEC-E84E/.

摘要

多视图聚类(MVC)通过综合多个视图的信息将数据样本分成有意义的簇。此外,基于深度学习的方法在多视图聚类场景中展示了强大的特征学习能力。然而,在有效地推广特征表示的同时保持一致性仍然是一个棘手的问题。此外,大多数基于对比学习的现有深度聚类方法在聚类过程中忽视了聚类表示的一致性。在本文中,我们展示了如何克服上述问题,并提出了一种通过对比学习来增强一致性的深度多视图聚类方法(CCEC)。具体而言,我们将语义连接块(semantic connection blocks)融入特征表示中,以保留多个视图之间的一致信息。此外,通过谱聚类增强了用于聚类的表示过程,并提高了多个视图之间的一致性。在五个数据集上进行的实验证明了我们方法与现有最先进方法相比的有效性和优越性。

I. INTRODUCTION

随着数据来源的多样性和日益复杂性,多视图聚类(MVC)最近成为一个关键的研究领域。多视图数据具有不同的特征表示,可以捕捉单个实体的不同方面或模态性[1]。MVC的主要目标是有效地将数据样本分离成有意义的聚类。MVC的潜力来自于其利用从不同角度获得的一致性信息,从而提高聚类精度和鲁棒性[2]。MVC在许多机器学习任务中受到越来越多的关注,包括特征选择[3]、场景识别[4]和信息检索[5]、[6]。

在MVC中,对于一个样本,它包含多个视图下的多个特征表示。这些特征表示位于不同的潜在空间,但仍然具有一定程度的一致性。如图1所示,我们展示了从不同视图获取的三种样本的特征表示。如果直接对这些特征表示进行聚类,聚类结果将丢失原始特征中包含的一致性信息,导致性能较差。然而,如果可以挖掘同一样本在不同视图中的一致性,并利用这种一致性来学习样本的表示进行聚类,将实现理想的聚类效果。

近年来,已经提出了许多MVC方法,包括基于子空间的方法[7]、矩阵分解方法[8]、[9]、基于图的方法[10]和多核方法[11]、[12]。然而,这些方法具有表示能力差和计算复杂度高的问题。已经提出了许多基于深度学习的方法来缓解上述问题。MFLVC [2]通过对比策略学习不同层次的特征。GCFagg [13]将全局和跨视图特征聚合与结构引导的对比学习相结合。DealMVC [14]集成了双对比校准机制,用于对齐从全局视图和局部视图获取的特征。DMCE [15]集成了集成聚类方法,通过图自动编码器融合来自不同视图的相似性图。CVCL [16]通过对齐不同视图的聚类中心来促进视图不变的表示。

这些方法表明在多视图学习场景中保持视图之间的一致性是关键的。然而,现有的方法[13]–[15]在提取带有一致性信息的特征表示方面存在不足。不一致的特征表示会降低后续聚类表示的准确性。此外,现有的多视图对比学习方法[16]–[18]忽视了聚类表示在聚类过程中的一致性。

为了解决这些挑战,我们提出了一种基于一致性增强的深度MVC方法,通过对比学习(CCEC)来解决MVC中的一致性问题。我们设计了一个一致性保持模块,通过引入语义连接块来获取原始的多视图一致数据表示,并挖掘多个视图的一致性信息。与大多数现有的对比学习方法不同,所提出的方法引入了谱聚类,从多个视图中捕捉一致的语义标签信息。CCEC通过交叉比较谱聚类和多层感知机(MLP)生成的聚类标签,将多个视图之间的聚类表示进行对齐。基于这些视图不变的表示,提出的CCEC方法的对比损失鼓励正样本对的聚类分配相似,并将负样本对的聚类分配推开。

我们的主要贡献总结如下:

  • 我们引入了一种名为CCEC的端到端深度MVC方法,增强了MVC的一致性。
  • CCEC提供了一个保持一致性的差异自编码器结构,通过引入语义连接块来保留多视图一致的数据特征。
  • CCEC设计了一个新的跨视图对比聚类模块,加强了框架内部的视图一致性信息。
  • 所提出的CCEC算法在五个数据集上的性能显著优于现有的MVC方法。

II. RELATED WORK

在本节中,我们简要回顾与本工作相关的三个主题,即多视图聚类 (MVC)、对比学习和谱聚类。

A. 多视图聚类 (MVC)
现有的MVC方法可以分为五类:基于子空间学习的方法[19]、基于非负矩阵分解的方法[20]、基于图的方法[21]、[22]、基于多核学习的方法[23]和基于深度学习的方法[17]、[18]。
尽管传统的MVC方法是有效的,但它们通常捕捉浅层的数据表示,限制了它们对派生数据表示进行区分的能力。为了解决这个问题,最近的发展转向了深度MVC方法。这些方法利用深度神经网络提取更详细和层次化的特征表示,有效地揭示了多视图数据中包含的潜在聚类模式。DSIMVC [17]动态地填补缺失的视图,并选择使用填补后的样本进行训练,以确保语义的一致性。DSMVC [24]识别并关注从每个视图中得出的最相关特征,以有效平衡从增加的视图中提取有用信息的过程。DCP [18]利用视图内重建、双重交叉对比学习和视图间双重预测来解决多视图设置中的一致性学习挑战。与这些现有方法不同,本工作的目标是提出一个新的框架,可以减少在聚类过程中产生的一致性信息损失,并确保改进的聚类性能。

B. 对比学习
对比学习作为无监督学习中的一个关键范式,极大地推动了表示学习领域的发展[25]–[28]。这种方法的基础是创建一个潜空间,在其中最大化正样本之间的相似性,同时最小化负样本之间的相似性[18]、[20]。这种方法的一个关键元素是InfoNCE损失,它是噪声对比估计(NCE)的一种变体,用作互信息的下界[29]。这个概念已经成功地集成到模型中,例如MoCo [30]和CPC [31],它们专注于最大化样本不同视图之间的互信息。

在多视图聚类的领域中,对比学习巧妙地解决了跨异构视图的表示一致性问题[16]。传统方法主要依赖于数据增强来生成这些多样化的视图,而我们的方法则采用了一种新颖的伪标签策略。

C. 谱聚类
谱聚类根植于图论,利用数据的图表示构建聚类结构。这种方法通过改进输入图的特征向量来揭示内在的聚类表示[19]、[32]。在MVC中,不同的视图可能产生不同的图布局,导致一致性问题。谱聚类可以统一这些不同的图,提供解决这个一致性问题并改善聚类结果的方法。CSRF [33]通过在谱嵌入特征级别学习融合的关联矩阵,改进了传统的谱聚类方法。

III. METHODOLOGY

A. 动机

在多视图学习中,实现跨不同视图的特征一致性至关重要。传统的自编码器主要关注对单个视图的表示,可能无法有效地捕捉视图之间的一致特征。受ResNet [34]结构的启发,我们将语义连接块(semantic connection blocks)引入到多视图特征提取过程中,以实现特征的一致性。一致性信息可以在基于两层MLP的特征提取模块中表示如下:

在这里插入图片描述

其中, C C C 表示一致性信息, x i xi xi 表示第 i i i 个视图的输入, f f f 表示转换函数, w 1 i w1i w1i w 2 i w2i w2i w ′ 1 i w'1i w1i 表示权重矩阵。我们设计了一种新的对比学习方法,以增强多个视图之间的一致性。通过谱聚类方法获得的聚类伪标签和由神经网络生成的聚类伪标签被用作对比学习的正样本对。通过最小化同一样本的不同视图之间的聚类分布差异,确保不同视图中特征的语义对齐,强调了我们解决方案的本质。

为了直接从多个视图上的原始实例中提取语义标签以进行端到端聚类,我们提出了CCEC框架。如图2所示,CCEC架构分为两个主要模块:保持一致性的自编码器交叉对比一致性学习模块。自编码器的任务是提取具有一致信息的特征,以保持一致性。交叉对比一致性学习模块通过并置聚类分配来改进聚类结果,确保一致性和鲁棒性。

B. 一致性保持

标准的残差连接[34]可以表示如下:

在这里插入图片描述
其中,x表示输入,y表示输出,F表示转换函数,W1和W2表示权重矩阵。这个方程表示经过转换函数F(x, W1)的输入和原始输入x同时对输出产生贡献。在多视图情况下,确保x的主要属性保留在输出中有助于保持视图间的一致特征。通过使用语义连接块,我们可以数学地表示模型对一致特征的关注,如下所示:

在这里插入图片描述
其中,C表示一致特征向量,α是一个权重因子,用于确定转换特征和原始输入之间的平衡。

借鉴残差连接的概念,我们设计了一种新型的编码器架构。该设计由多个堆叠的语义连接块组成,表示如下:

在这里插入图片描述
其中,Ei表示从第i个语义连接块得到的输出,Ei−1表示从前面的语义连接块(或者当i=1时,表示输入)得到的输出。每个块都保留原始输入数据,确保即使在数据经过变换时,一致的特征也会被突出和保留下来。

C. 一致性增强

给定多个视图的特征表示集合 Z = z 1 m , z 2 m , . . . , z i m Z = {z^m_1 , z^m_2 , ..., z^m_i } Z=z1m,z2m,...,zim(其中 z i m = E m ( x i m ) ) z^m_i = E^m(x^m_i )) zim=Em(xim)),其中 m 表示第 m 个视图,我们在 Z 上堆叠了一个 MLP 和 softmax 函数,得到一个聚类分布矩阵 H。然后通过将 H 与其转置相乘,得到一个相似性矩阵 S = H H T S = HH^T S=HHT。得到的矩阵 S S S 充当了一个关键的表示,捕捉了不同聚类分布之间的内在相似性。然后,我们对 S S S 进行谱聚类,得到一个聚类分布矩阵 Q Q Q,使得 Q = f ( S ) Q = f (S) Q=f(S),其中 f f f 表示谱聚类函数。

为了增强不同视图之间的一致性,我们利用对比学习的能力来处理聚类分布。对于两个给定的来自不同视图的分布 C1 和 C2,我们的目标函数定义如下:
在这里插入图片描述
其中,d表示距离度量,确保不同聚类分布之间的差异最小化。这个机制确保了不同视图之间特征的语义对齐,是我们方法的核心。

D. 使用一致性特征提取进行预训练阶段

我们首先构建一个预训练网络,用于优化参数初始化过程。该网络结合了成对的编码器-解码器模块,每个模块针对给定集合中的不同视图进行微调。对于视图集合 V 中的每个视图 v v v,特定的数据样本 x i v x^v_i xiv 通过编码器进行转换,形成一个嵌入式特征表示 z i v z^v_i ziv 。数学上,该转换定义如下:
在这里插入图片描述
其中, f e v f^v_e fev W e v W^v_e Wev 分别表示视图 v v v 的编码器函数和相关的权重参数。

这个嵌入表示 z i v z^v_i ziv 的目标是通过解码器模块对原始数据样本进行重构。这个解码过程的结果表示为 x ~ i v \tilde{x}^v_i x~iv ,由以下方程描述:

在这里插入图片描述
其中, f d v f^v_d fdv 表示解码器函数, W d v W^v_d Wdv 表示解码器的权重,两者都针对视图 v v v 进行了定制。

在预训练阶段,我们的总体目标是通过最小化涵盖所有视图的重构损失来实现,该损失函数如下所示:

在这里插入图片描述

E. 用于跨视图一致性的对比学习过程的微调

给定由公式(6)获得的特征集合 { Z m } m = 1 M \{Z_m\}^M_{m=1} {Zm}m=1M,我们注意到这些特征表示弱一致的多视图特征表示。我们将它们称为弱一致性表示。为了增强这些表示,我们的目标是得到强一致性的聚类标签,我们将其称为强一致性表示。为了实现这个目标,在 { Z m } m = 1 M \{Z_m\}^M_{m=1} {Zm}m=1M上应用一个三层线性 MLP,表示为 F ( { Z m } m = 1 M ; W H ) F (\{Z_m\}^M_{m=1}; W_H) F({Zm}m=1M;WH)。这将得到一组聚类表示 { H m } m = 1 M \{H_m\}^M_{m=1} {Hm}m=1M。然后,使用谱聚类来重建这些标签,得到额外的聚类表示,表示为 { Q m } m = 1 M \{Q_m\}^M_{m=1} {Qm}m=1M

在弱一致性空间中,由公式(6)给出的重构目标确保保留 { Z m } m = 1 M \{Z_m\}^M_{m=1} {Zm}m=1M 的表示能力,从而减轻模型崩溃问题。在强一致性空间中,采用对比学习来确保 H m Hm Hm Q m Qm Qm 收敛于学习所有视图的通用语义。

聚类表示 h m hm hm q m qm qm 都由 (2M N − 1) 个标签对组成。其中,(M − 1) 个是正特征对,剩下的 (M (2N − 1)) 个是负特征对。遵循 SwAV [35] 对比学习方法的思路,我们优先最大化正对特征对之间的相似度,并忽略负特征对。受 NT-Xent [36] 启发,我们使用余弦距离来衡量两个特征之间的相似度。

在这里插入图片描述

然而,在实际情况中,由于视图特定信息的影响,某些视图可能仍具有不一致的聚类标签。为了确保鲁棒性,我们的目标是实现聚类一致性,即所有视图中相同的聚类标签应表示相同的语义聚类。换句话说, { H j m } m = 1 M \{H^m_j\}^M_{m=1} {Hjm}m=1M应保持一致。

为了实现这个一致性目标,我们采用对比学习。对于第 m 个视图,相似的聚类标签 H j m H^m_j Hjm形成了 (M K − 1) 个标签对,即 { H j m , H k n } ( n = 1 , . . . M , k = 1 , . . . , K ) \{H^m_j, H^n_k \} (n=1,...M, k=1,...,K) {Hjm,Hkn}(n=1,...M,k=1,...,K),其中 { H j m , H k n } n ≠ m \{H^m_j, H^n_k \} n \neq m {Hjm,Hkn}n=m 被构造为 (M − 1) 个正标签对,剩余的 M (K − 1) 个标签对被视为负标签对。我们进一步定义了 H m Hm Hm H n Hn Hn 之间的标签对比损失,如下所示:

在这里插入图片描述

公式(13)的第一部分旨在学习所有视图之间的聚类一致性,而第二部分则作为正则化项,通常用于防止所有样本被分配到一个单独的聚类中。

提出方法的整体损失由三个主要组成部分组成:预训练网络的重构损失、交叉对比一致性损失和一致性比较微调损失。

在这里插入图片描述

  • 25
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值