4.1Deep Dual Contrastive Learning for Multi-View Subspace Clustering 基于深双对比学习的多视图子空间聚类(翻译)

作者:Xincan Lina,b, Jie Liana,b, Zhihao Wua,b, Jielong Lua,b, Shiping Wanga,b,∗
aCollege of Computer and Data Science, Fuzhou University, Fuzhou 350116, China
bKey Laboratory of Intelligent Metro, Fujian Province University, Fuzhou 350108, China

引用:Lin X, Lian J, Wu Z, et al. Deep Dual Contrastive Learning for Multi-View Subspace Clustering[J]. Available at SSRN 4706044.

摘要

        多视图子空间聚类(MVSC)旨在利用所有视图的一致性和互补性来学习一致的共享自表示,许多MVSC算法试图直接从原始特征中获得最优表示。然而,它们可能会忽略原始特征空间中的噪声或冗余信息,导致学习次优自表示和较差的性能。为了解决这一限制,一个直观的想法是引入深度神经网络来消除噪声和冗余,从而产生潜在的嵌入空间。然而,现有的深度MVSC方法只关注嵌入或自表达来探索互补信息,这阻碍了子空间学习。在本文中,我们提出了一个深入的多视图对偶对比子空间聚类框架,以有效地利用互补性来学习潜在的自我表征。具体而言,构造多视图编码器以消除原始特征的噪声和冗余,并捕获低维子空间嵌入,从中学习自表示。此外,对潜在子空间嵌入和自表达进行了两种不同的具体融合方法,以学习共享的自表示,并提出了双重对比约束,以充分利用视图之间的互补性。进行了大量的实验来验证所提出的方法的有效性。

一、引言

       在信号处理中,从不同资源或不同形式捕获的数据被称为多视图数据。例如,图像的纹理或边缘等特征被提取为多个视图,同一新闻的不同报道也可以被视为新闻的不同特征。随着多视图学习的兴起,最近出现了大量的多视图数据[1,2,3,4]。作为一种无监督的范式,多视图聚类得到了极大的关注[5],其目的是利用多视图的一致性和互补性来学习一致性表示,以提高聚类性能。根据方法论的类型,多视图聚类算法通常可分为三种形式:多视图谱聚类[6,7,8],多视图子空间聚类[9,10,11],非负矩阵分解多视图聚类[12,13,14]。

        此外,还提出了其他几项工作,以从原始特征有效地执行子空间聚类[15,16,17]。然而,原始特征空间通常包含噪声和冗余,并且这些直接从这种特征空间挖掘自表达信息的方法往往会学习次优的自表示,这导致性能下降。

       因此,已经提出了大量的研究来推导用于最优自表示学习的有效的低维特征空间。[18]没有使用原始特征,而是追求全面的潜在嵌入来探索互补信息,促进了在这些学习嵌入空间中的一致自表示学习。类似地,[19]提出构建潜在一致表示,并引入HSIC来捕捉视图之间的高阶和非线性关系。[20] 同时进行特征投影和自表示,挖掘共享信息和特定信息,利用低维特征进行重构。此外,[21]在一个统一的框架中联合学习了隐式嵌入空间、鲁棒相似性矩阵和精确的聚类指标矩阵。然而,这些方法在处理以非线性数据关系为特征的复杂特征时表现不佳。

       幸运的是,由于其强大的表示提取能力,深度学习被引入到MVSC方法中来探索非线性信息。例如,[18]使用深度神经网络来推广所提出的发现非线性数据关系的方法。[22]提出了一种深度多视图子空间聚类网络,将全局和局部结构与自我表达层相结合,[23]甚至利用数据亲和关系来指导嵌入学习过程。此外,[24]将信息瓶颈扩展到深子空间聚类,旨在学习最小的充分表示。由于对比学习能够捕捉判别表示,[25]获得了节点的平滑表示,并通过采用图对比正则化。[26]提出了两个关于高级特征和语义标签的对比目标,以探索共同的语义。尽管深度MVSC方法取得了很好的性能,但它们仍然可能获得不完整的自我表征,这是由于仅考虑自我表达水平或嵌入水平的相互信息融合造成的。

        为了解决上述局限性,我们提出了一种深度多视图对偶对比聚类网络。这种方法试图联合学习子空间嵌入和自表示,并通过最大化互信息来利用互补信息。具体而言,构建多视图自动编码器以消除噪声和冗余,同时获得有效的嵌入,并构建自表达层以探索视图特定的自表示。此外,引入了两个不同的融合层,以提取共享的一致的自我嵌入和自表示。为了充分利用不同观点之间的互补性,我们提出了在自我嵌入和自我表达两个层面上的双对比学习。

图1:提出的框架示意图,该框架由多视图自编码器和具有两个特定融合层的自表示层组成。

具体而言,构建多视图编码器,将多视图特征映射到子空间嵌入中,将其放入自表示层中,学习特定于视图的自表示,获得相应的自嵌入。此外,设计了二维卷积层和线性融合层,以获得共享的自表达S∗和自层积H∗。为了充分利用互补性,在两个融合层上引入了双对比模块,通过最大化共享和特定于视图的自表示之间的相互信息。特别地,在多视点解码器中输入共享的自滤波H∗以生成重构数据。

总之,主要贡献概述如下:

         1.设计了一个具有自我表达层的多视图自动编码器,以联合学习视图特定的子空间嵌入和自我表达,并设计两个特定的融合层来获得共享的自我表示。

        2.为了充分利用互补性,在两个层次的自我表征上提出了一个双重对比模块,这是通过解决共享和特定视图的自我表征之间的相互信息最大化问题来实现的。

       3.所提出的多视图对偶对比网络可以联合优化自嵌入和自表达,大量的聚类实验证明了所提出方法的优越性。

二、相关工作

     2.1. Multi-view Subspace Clustering 多视图子空间聚类

        多视图子空间聚类(MVSC)专注于发现原始数据子空间中的潜在连接,以学习判别表示,从而更好地进行聚类,在这里,我们集中讨论了联合进行潜在低维特征学习和自表示学习的方法。基于所有视图都可以源自一个共享的底层表示的假设,[18]提出了一种潜在的多视图子空间聚类算法,通过利用不同视图之间的互补性来学习多视图潜在表示,并将其进一步推广到基于深度神经网络的模型中,以处理更一般的关系。[20] 同时学习跨视图的共享信息,同时从每个视图捕获特定于视图的信息,并利用低维特征表示来减轻冗余的影响。通过引入核依赖性HSIC,[27]试图形成一个信息完整性感知相似性,该相似性强制构造相似性,以在隐式完整空间中实现最大依赖性。为了探索非线性和高阶数据相关性,[19]还采用HSIC来学习灵活的多视图表示,该表示对来自不同视图的互补信息进行编码。[28]甚至提出了通过全局结构学习来联合学习潜在嵌入空间、鲁棒相似性矩阵和精确聚类指标矩阵。此外,构建了一个深度多视图子空间聚类网络[22],以同时搜索数据之间的局部和全局几何关系。[29]联合进行了特征嵌入和子空间学习,利用原始特征获得的一致亲和关系作为监督信号来自我指导嵌入过程。从信息瓶颈的角度来看,[24]提出了一种自监督的深度框架来获取多视图融合亲和矩阵,并通过最大化相关互信息和最小化不相关互信息来学习最小的充分潜在表示,从而获得公共信息。尽管这些方法已经呈现出一定程度的有效性,但它们要么只学习共享嵌入,要么只考虑共享的自我表征,这不利于充分利用观点之间的一致性和互补性。因此,这启发了我们建立一个通用的双重共享自表示学习框架。

     2.2 Multi-view Contrastive Learning  多视图对比学习

        多视图对比学习对比学习[30,31]是一种强大的学习判别表征的技术,通过将正样本对拉得更近,将负样本对推得更远。目前,有许多方法致力于多视图情况[32,26,33,34]。例如,[25]设计了一个图对比正则化器,通过图过滤学习基于光滑表示的一致自表示图。[35]构建了一个深度自编码器网络,以获得一个从原始的预定义图中提取一致性图,并引入对比重构损失来实现样本级重构。[26]对高级特征和语义标签进行对比学习,提取更深层次的语义信息,优化聚类分配。为了处理不完整数据,[32]提出了一种统一一致表示学习和使用双对比预测的跨视图数据恢复的理论框架。此外,[36]甚至提出了一种噪声鲁棒的对比损失来解决部分视点不对齐问题和部分样本缺失问题。然而,有限的工作集中在利用对比学习来共同探索有效的子空间嵌入和视图之间的互补信息,这启发我们建立一个通用的对比框架,将子空间表示学习与互补探索优雅地结合起来。

三、提出方法

       3.1 子空间表示学习

       假设原始多视图数据由V个视图特征{\{X^{v}\}^{V}_v=1和 c个聚类组成,其中X^{v}\in \mathbb{R}^{N \times D^{v} }为N个实例,第V个视图的D^{v}维。子空间表示学习的主要目标是去除原始特征中的噪声和冗余,得到一个全面的嵌入子空间,从中学习自表示。

       Latent Embedding Learning. 潜在嵌入学习。原始特征通常包含噪声和冗余,阻碍了数据中潜在关联的识别。为此,采用基于深度神经网络的编码器来消除原始特征中的冗余和噪声。具体而言,构建多视图编码器,得到光滑子空间嵌入\{H^v\} ^V _{v =1},其中维嵌入。一般情况下,嵌入的维度k满足k\ll D^v,以便尽可能地去除无关信息。其中,v_{th}潜嵌入H^v可以通过,其中fv是一个参数为ΘEv的多层非线性网络。经验上,采用流行的多层感知器(MLP)构成编码器,实现有效的嵌入学习.

         Self-Representation Learning.自表示学习 。给定来自同一对象的不同视图的不同属性,数据的表示关系在不同视图中有所不同。基于这种观察,构建了多视图自表达层来学习特定于视图的自表示,这些自表示封装了不同的数据关系。与传统的MVSC方法相比,自表示不是直接从原始特征空间中学习,而是从嵌入子空间中学习。由于每个视图都有自己的自表示学习,所以将所有视图的单个自表示学习损失相加,可以计算出相应的损失L_{se}:

 

         Shared Self-Expression Learning.共享自表示学习。由于不同的视图具有一致的底层结构,因此存在包含所有视图之间数据关系的共享通用自表示。此外,自表示通常描绘了数据之间的空间关系,共享通用自表示必须包含尽可能多的所有视图的自表示属性。然而,线性映射操作可能会忽略数据中存在的内在非线性关系。为了保持空间一致性,利用卷积运算来融合自我表达。特别地,将自表示的所有视图连接成一个张量

并引入一个二维卷积层(简化为Conv2d)融合成一个共享的自表示S^*,其表示如下:

其中κ表示核权为Θκ的conv2d算子,diag(S∗)= 0也用于避免自连接的负面影响。与传统的融合方法(如加权平均或自适应加权)不同,卷积层用于融合不同的自我表达视图,作为一种有效发现所有视图之间局部连接的方式。

       Shared Self-Embedding Learning.共享自嵌入学习。为了进一步明确通用信息,还在嵌入空间中进行了共享表示学习。与共享自表示学习相似,在所有的自嵌入视图中,也存在一种隐含的共享自嵌入。通过将嵌入通过相应的自示层得到自嵌入。它可以看作是利用数据之间的特征相关性对嵌入进行重构,本质上可以看作是对嵌入的重组。通过对不同视图的自嵌入进行重组,可以获得视图间的共享自嵌入。因此,采用线性融合层对所有自嵌入视图进行融合,得到共享视图。特别地,所有的自嵌入都是连接和输入的线性层导出的共享自嵌入H *,公式为:

式中,C(·)为行运算串联,φ为可训练参数Θφ的线性层。

    3.2 重构学习

        事实上,一致性不仅存在于原始特征空间中,也存在于嵌入空间中,这表明原始特征需要从潜在的共享表示中恢复。因此,使用共享自嵌入来重建所有视图,而不是特定于视图的自嵌入。具体而言,以共享自嵌入H∗作为输入,构建多视图解码器{Dv} V V =1,生成特定于视图的重构特征X´V = g V (H∗;ΘDv),其中gv表示以ΘDv参数化的解码网络。为了有效地学习潜在嵌入,根据所有视图重建的误差计算重建损失Lre,可以表示为:

       3.3 双对比学习

        从本质上讲,不同的视图描绘了不同但互补的特征,并且在适当的转换下保留了视图之间的互补性。基于这一假设,我们期望所提出的嵌入提取网络是一种理想的变换,使得不同视图在潜在子空间中保持互补性。因此,利用互补性有助于学习完整的共享表示。由于互信息是衡量变量之间关联程度的有力指标,因此互补性可以从互信息的角度来捕捉。其动机如图2所示,通过融合表征{Z v} v v=1的所有视图得到共享表征Z∗,并且每个表征Z v可视为Z∗在节点嵌入和节点关系层面上的一个特定性质。因此,不同的视图可以相互补充,充分利用互补性来完善共享表示,并将互补性转化为共享表示和特定视图表示之间的相互信息最大化。

通过利用视图之间的互补信息来学习共享表示的说明。显然,每个视图的表示\{Z^ v\} ^V_{v=1}既包含特定于视图的节点嵌入信息,也包含节点关系信息。由于数据的互补性,共享表示Z *应该在嵌入和关系两个层次上融合互补信息,以保持数据的互补性。其中,互补性是通过最大化共享表示和特定视图表示之间的相互信息来利用的.

        已经有很多方法致力于解决互信息最大化问题,本文引入了InfoNCE下界[37]通过对比学习实现互信息的最大化。通常,Z *和z^v之间的互信息表示为:

       Embedding Contrastive Learning. 嵌入对比学习。考虑到共享自嵌入H∗是由所有自嵌入{S vHv} V V =1的非线性融合产生的,特定视图自嵌入可以看作是共享自嵌入的各种增强。这里,H *与自嵌入S vHv的每个视图进行对比。将S ~ v简化为H ~ v,第i个样本的嵌入对比损耗由式计算

       Self-Expression Contrastive Learning.自表示对比学习。为了进一步加强互补性,除了嵌入层面的对比外,还在自表示层进行了对比学习。由于共享自表示是由自表示的所有视图使用卷积融合算子构造的,因此所有特定于视图的自表示都被视为共享自表示的多个增强。因此,对自表示\{S^v\}^V_{v=1}进行对比学习,以约束共享的自表示S *,保持尽可能多的来自所有视图的关系信息。与嵌入对比损失类似,将自表示作为一种数据表示,第i个样品的自表示对比损失可表示为:

        在上述双对比损失中,我们提出了两个对称的对比项来加强共享自表达和特定自表达之间的互信息,促进网络使用更全面的互补信息来学习融合表示。

      3.4. 目标函数Objective Function

      考虑到上述损失,所提出框架的总体目标函数可以总结为

其中,α、β和γ为超参数,用于平衡三种自我表现损失L_{se}、自我表达对比损失Lsc和嵌入对比损失Lec的影响。在重构损失和自表示损失的作用下,对潜在子空间嵌入和自表示进行联合优化。利用对偶对比损失,可以使潜在子空间中的互补信息日益丰富。通过最大化共享和特定于视图的自我表示之间的互信息,共享的自我表示将更加紧凑和有区别。通过梯度下降法更新所有网络权值,并采用Adam优化器加速收敛。该方法的训练过程如算法1所示。

        计算的复杂性。该方法的计算复杂度主要来自于网络的前向传播和双重对比学习。具体来说,是自动编码器的正演程序

四、实验

        实验部分自己可以看看,我觉得重点在方法的理解上,实验有一定的辅助性。本文没有提供代码,如果时间之余,可以复现。这篇文章相对简单。

五、结论

        提出了一种易于构建和实现的深度多视图对偶对比子空间聚类框架。提议的方法旨在同时学习子空间嵌入和自表示。与大多数传统的多视图子空间聚类方法不同,该方法通过设计两个特定的融合层,从潜在的子空间嵌入中提取共享表示,而不是从原始特征空间中提取。此外,为了充分利用不同观点的互补性,我们在自我呈现、自我嵌入和自我表达两个层面上进行了双重对比学习。特别是,对比学习是通过最大化共享和特定视图的自我表征之间的相互信息来实现的。因此,该方法能够从潜在子空间中捕获具有一致性和互补性的潜在数据关系,从而实现更好的聚类。大量的实验和可视化显示了该方法在聚类任务中的优越性。尽管该方法取得了优异的性能,但在处理大规模数据集时,其高复杂度令人难以忍受。因此,我们将在今后的工作中重点研究复杂性优化问题。

  • 14
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值