9.MVCformer: A transformer-based multi-view clustering method 基于transformer多视图聚类方法

引用:Zhao M, Yang W, Nie F. MVCformer: A transformer-based multi-view clustering method[J]. Information Sciences, 2023, 649: 119622.

作者:赵明宇,杨卫东 ,, Feiping Nie

a School of Computer Science, Fudan University, Shanghai 200433, PR China b School of Computer Science, School of Artificial Intelligence, Optics and Electronics (iOPEN), and the Key Laboratory of Intelligent Interaction and
Applications (Ministry of Industry and Information Technology), Northwestern Polytechnical University, Xi’an 710072, Shaanxi, PR China

一、摘要

       背景:近年来,基于图的多视图聚类方法由于能够整合多个视图的互补特征,从而将样本划分到相应的聚类中,受到了广泛的关注。挑战:然而,现有的基于图的方法大多属于浅模型,无法从复杂的多视图数据中提取潜在信息。方法:受self-attention的成功启发,本文提出了一种基于transformer的多视图聚类方法MVCformer,该方法学习深度非负谱嵌入作为一阶段聚类分配的指示矩阵。此外,设计了一种简单有效的优化框架,将相似图的重构损失与正交损失相结合,使学习到的非负嵌入列正交。结果:在9个基准多视图数据集上进行了大量实验,验证了该方法的有效性。实验结果表明,该方法与现有方法相比具有优越性。

二、引言

        聚类是无监督学习领域中最基本的任务之一。在过去几十年里,许多聚类方法已经被提出来了,并在各种实际应用中使用。随着大数据时代的到来,数据集中的样本通常来自多个来源和角度,这种多视图数据在许多领域中都是普遍存在的。传统方法:然而,传统的聚类模型只关注单一视图情况,忽视了来自多个来源或视图的信息。因此,开发有效的多视图聚类方法对于获得更准确的聚类结果至关重要。

        由于挖掘非线性特征的优越性,基于图的多视图模型具有较好的聚类性能。为了在一个阶段确定聚类标签,许多基于图的模型旨在学习一个指标矩阵来直接获得结果。将谱聚类与对称NMF相结合,提出了正交非负图重构(orthogonal and non-negative graph reconstruction, ONGR)方法[14],采用非负谱嵌入作为指标矩阵,实现单视图聚类,并取得了可观的性能。通过将这种方法扩展到多视图聚类,从ONGR的角度提出了许多模型[15-17]。不幸的是,这些方法都是浅层模型,提取隐藏在数据集中的深层潜在信息的能力有限。

       最近,已经提出了各种基于深度学习的方法来揭示复杂多视图数据中的关系,基于图卷积网络(GCNs)的模型取得了令人瞩目的成果。然而,这些方法通常包括一个复杂的优化框架,并且初始的相似度图对基于GCN的方法的有效性有显著影响。为了解决这些限制,本研究提出了一种基于Transformer的多视图聚类方法,命名为MVCformer,以获得非负谱嵌入作为指示矩阵。此外,还向学习到的指示矩阵添加了正交约束。当非负性和正交性约束同时满足时,指示矩阵中只有一个元素大于零,这确保了在簇分配中的可解释性。

       本工作的贡献可以概括如下:

       1.该模型是最早将Transformer和ONGR中的自注意机制结合起来学习多视图聚类的谱嵌入的方法之一;

      2.从图重构的角度出发,导出了一种简单有效的损失函数来保持学习得到的谱嵌入的正交性和非负约束;

      3.在几个基准数据集上进行了大量实验,以说明所提出模型的有效性,并将其与当前最先进的(SOTA)基线进行比较。

三、相关工作

         3.1  ONGR

        ONGR首先用于单视图聚类。ONGR构造锚图来提高计算效率。由于非负约束,该算法可以直接获得聚类标签。对于多视图聚类,在ONGR的基础上提出了MCNOGR,该算法充分挖掘了潜在的结构信息,具有较好的多视图聚类性能。类似地,提出了NESE,以同时获得一致的非负嵌入和多个频谱嵌入。为了在大规模数据集上获得良好的性能,Yang等人提出了FMCNOF,从锚图中学习正交和非负嵌入。

       3.2 Deep multi-view clustering

       作为聚类领域的主流技术之一,深度聚类利用深度学习来增强其效果。MvSCN首次在多视图聚类中采用深度神经网络(DNN)来从原始特征中获得联合低维嵌入。EAMC将特征学习、融合和聚类分配结合到一个统一的优化框架中,在多模型聚类中表现有效。基于EAMC中的损失函数,提出了一种创新的深度多视图聚类模型,名为CoMVC ,它使用加权线性组合融合来自不同视图的多个表示,并通过对比学习从融合的嵌入数据中学习标签矩阵。为了获得多视图图聚类中的通用图,MCGC 利用子空间中的属性内容和图结构信息,并采用对比图学习。类似地,MFLVC 通过对比学习学习多视图的低层和高层表示和语义标签。在GCN在图学习中取得成功的基础上,提出了O2MAC ,它使用信息丰富的图和原始特征学习节点嵌入,以执行多图重构以实现多视图图聚类。此外,CMGEC [26] 使用自动编码器、互信息最大化和GCN技术来学习一致的表示,旨在实现通用多视图聚类。然而,在提出的模型中,通过基于 Transformer 的自动编码器学习统一、非负和正交的图嵌入。此外,还提出了一个简单而有效的损失函数来训练该模型。

       3.3 Transformer

       Transformer[27-29]是一种基于深度学习的模型,仅依赖于注意机制。该模型在各个领域都取得了SOTA的效果。也就是说,由于多头关注,Transformer可以确定输入数据的不同位置之间的关系,表现出比其他基于深度学习的模型更好的性能。随着Transformer的成功,近年来开发了各种Transformer变体[30,31]。考虑到其有效的自注意机制,本研究将Transformer应用于多视图聚类任务。

四、提出方法

        为了在谱嵌入𝑭上增加一个额外的非负约束,本文方法引入了一个额外的N-cut目标函数:

       其中𝑨表示由原始特征构造的归一化相似矩阵。

      考虑到计算成本,上式可等价求解如下:

        ONGR的目标是学习统一的谱嵌入作为指标矩阵。为了整合多视图信息,本文将自动加权多视图ONGR的目标函数定义为:

其中A^{(v)}表示v_{th}视图在数据集中的归一化相似图,而\alpha _vA^{(v)}的贡献权值,𝑟表示引入标量来控制权值的分布

       然而,大多数基于图重构的方法都是浅层模型,这限制了它们获取原始数据中深层表示的能力。本研究提出了一种基于Transformer的多视图聚类模型,名为MVCformer,用于学习上式中的潜在正交和非负谱嵌入,而不考虑优化的复杂性。所提出模型的架构如图1所示。

        4.1 Similarity graph encoder  相似图编码器

            考虑到不同视图之间信息的异构性和互补性,该方法采用图融合策略:

   其中𝜶为训练参数;𝜶中的所有元素初始化为\frac{1}{v}。  

        图编码器负责将融合图\hat{A}\in \mathbb{R}^{N \times N}二进制操作转换为一组相应的节点嵌入。融合图\hat{A}被转换成三个子空间:查询、键和值。三个子空间对应的三个特征可以通过:

       融合图中i_{th}j_{th}两个样本之间的注意力得分可由以下公式求得:

       输出的谱嵌入可通过:

        在自注意力机制中,不同的特征可以使用可学习的权重转换为单独的空间。在多头注意力模块中,输入被投影到多个子空间,使得模型能够关注不同的位置。假设 𝑚 表示头的数量,输出的特征维度可以表示为 𝑑′ = 𝑚 × 𝑑。然后,输出是来自多个注意力头的输出连接的线性投影。点式前馈网络(FFN)是编码器块的最后一层,编码器的最终输出可以通过以下方式获得:

此外,在多头注意和FFN模块中使用了dropout、残差连接和层归一化。

        4.2. Similarity graph decoder 相似图解码器

        得到表示\mathbf{F}^e后,通过图解码器得到最终的低维图嵌入,如下所示:

此外,聚类标签用于确定最终图嵌入\mathbf{F}\in\mathbb{R}^{N \times c}的每一行最大数的列索引,其中𝑐表示预定义的聚类数。

        4.3 loss function 损失函数

        受 ONGR 的启发,MVCformer 中的损失函数包括两项:重构损失和对学习到的嵌入施加的正交约束。在重构损失中,\mathbf{FF}^T表示\hat{A}的重构图,其定义为:

        第二项鼓励不同聚类的指标向量正交:

其中triu(\cdot )表示上三角矩阵中实体的和。

       本文模型中的总损失函数表示为:

其中,\lambda为用于平衡损失函数的两项的权衡参数。

在本研究中,使用Adam优化器[32]对MVCformer参数进行优化,学习率设为0.0003。

       4.4  Discussion 讨论

       在本研究中,目标函数定义如下:

        值得注意的是,当 𝛾 足够大时,第二项等同于对 𝑭 强加的正交约束。此外,解码器中的 Softmax 函数使得 𝑭 非负,这等同于在学习到的嵌入 𝑭 上引入了一个非负约束。最后,提出的 MVCformer 中的目标函数可以被视为通过 Transformer 实现的深度多视角、非负、正交图重构。

       4.5 Computational complexity 计算复杂度

五、实验

六、结论

      本研究提出了一种高效的深度多视角聚类方法,命名为MVCformer,用于学习非负和正交的谱嵌入,可作为指示矩阵直接获取聚类结果。指示矩阵中的实体表示样本和聚类之间的软关系,保证了可解释性。此外,提出了一个有效而强大的损失函数,由重构损失和正交损失组成。通过大量实验验证了所提方法。对九个真实数据集的实验结果显示了所提出的MVCformer相对于SOTA方法的优势。

       然而,所提出的方法存在一个限制,即MVCformer中输入和学习的相似度图的大小为 𝑁 × 𝑁,这需要大量的内存来处理包含大量样本的数据集。这可能是所提出的方法在实际应用中的一个潜在限制。因此,未来的工作将重点放在实现并行计算或其他先进技术上,以减少所提方法的运行时间。

  • 20
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值