5.1 Projected cross-view learning for unbalanced incomplete multi-viewclustering 不平衡不完整多视图聚类的投影跨视图学习

作者:Yiran Cai a,Hangjun Che a,b,*,Baicheng Pan a,b,Man Fai Leung c,Cheng Liu d,Shiping Wen e a西南大学电子与信息工程学院,中国重庆b重庆非线性电路与智能信息处理重点实验室,中国重庆c英国安格里亚鲁斯金大学理工学院,剑桥,英国d汕头大学计算机科学系,中国汕头e悉尼科技大学,澳大利亚悉尼科技大学

引用:Cai Y, Che H, Pan B, et al. Projected cross-view learning for unbalanced incomplete multi-view clustering[J]. Information Fusion, 2024, 105: 102245.

一、摘要

       不完整多视图聚类(IMVC)旨在将具有缺失样本的数据集的样本划分为不同的组。IMVC的主要目标是有效地解决聚类分析中信息缺失带来的挑战。大多数现有的IMVC方法都专注于平衡的不完整多视图数据,假设所有视图的丢失率一致。然而,这一假设并不能准确反映现实生活中的情景。事实上,不平衡的不完整多视图数据更为普遍,其特征是不同视图之间的缺失率不同。这对聚类过程提出了重大挑战,因为不同的丢失率可能导致信息不平衡。为了应对这些挑战,本文介绍了一种新的方法,称为不平衡不完整多视图聚类的投影跨视图学习(PCL_UIMVC)(PCL_UIMVC)。具体地,整合了一个重构项,利用已有样本的信息来完成不平衡的不完整多视图数据。其次,在模型中加入投影矩阵来协调视图之间的特征维度,减轻信息不平衡的影响。然后,集成图正则化项以保持原始数据的几何结构。最后,提出了一种求解该模型的迭代算法。在8个具有不同缺失率的标准数据集上进行了大量实验,验证了该方法优越的聚类性能。

二、引言

      从各种来源或方式收集的多视图数据[1]在计算机视觉[2,3]、生物信息学[4]和网页分类[5]等各个领域受到了极大的关注。多视图数据的分析通常涉及多视图聚类的任务,其目的是根据它们的多视图表示对相似的实例进行分组[6,7]。与单视图聚类方法相比,多视图聚类方法利用了不同视图之间的一致性和互补性信息,从而提高了聚类性能[8-10]。现有的多视图聚类方法大致分为四类[11]:多视图非负矩阵分解聚类[12-14]、多视图子空间聚类[15-17]、多核聚类[18-20]和典型相关分析[6]。

        然而,在实际场景中,收集的数据通常是不完整的。例如,在土木结构的健康监测中,由于传感器故障,数据往往包含重要的缺失值以及测量仪器[21]。同样,在社交媒体分析中,由于访问限制或用户隐私问题,每个数据源可能会出现数据缺失,导致多视图数据不完整。这就产生了一个特定的研究方向,即不完整多视图聚类(IMVC)[22]。近年来,不完整多视图聚类得到了大量的研究关注,提出了大量的方法来应对该挑战23,24]。该领域的一项基础工作是部分多视图聚类[25],它使用非负矩阵分解来构建潜在的子空间。在这个子空间中,不同视图中的相同样本和同一视图中的相似样本彼此接近。在部分多视图聚类原理的基础上,不完整多模态视觉数据分组(IMG)[26]集成了一个拉普拉斯图,在低维空间中保持全局结构。[27]使用半负矩阵分解获得一致的表示矩阵,并使用𝑙2,1范数正则回归对齐不同视图矩阵的偏置。然而,这些方法不能同时补全缺失的样本和处理多个视图。IMVC采用了推断缺失样本的策略,该策略已被证明对提高聚类质量是有效的[28,29]。例如,[29]通过构建重构项来推断每个视图的缺失数据,并引入了跨视图图匹配方法,从而增强了多视图的集成。

      上述方法主要处理平衡的不完整多视图数据,其中缺失样本的数量假设在各个视图之间是相同的。然而,在许多实际应用中,由于环境或操作变化的不同模式,所收集的数据表现出可变性[30],导致不同视图中缺失值的数量不平衡。例如,在处理患者记录时,由于个人因素或实验室程序的变化,患者在不同的视图中可能会有不同数量的缺失信息。这导致不同视图中缺失信息量的变化,导致多视图数据不平衡不完整[31]。到目前为止,很少有研究人员解决这类数据引起的聚类问题。 此外,在处理多视图数据时,某些视图表现出高维特征,而其他视图可能具有低维特征。不同视图之间特征维度的显著差异通常会导致信息不平衡,从而难以充分利用每个视图中的信息进行聚类分析。

       为了解决上述问题,我们引入了一种新的方法,称为不平衡不完整多视图聚类的投影跨视图学习(PCL_UIMVC)。与现有的许多不完整多视图聚类方法处理的缺失数据类型不同,PCL_UIMVC可以处理不平衡的不完整多视图数据。详细地说,我们的PCL_UIMVC首先通过构造不同维度的重建项来处理丢失的数据。它能够处理不同类型的缺失数据,并有效地完成不平衡的不完整多视图数据的补充。其次,利用投影矩阵进行降维,得到共识表示。它充分利用了低维特征的信息,同时减小了高维特征的影响。此外,利用现有样本的信息构造拉普拉斯图矩阵,以保持样本在原始空间中的流形结构。总体框架如图1所示。

图1所示。提出了方法的总体框架。

给定一个不平衡的不完整的多视图数据集,表示为{𝑿(1),𝑿(2),…,𝑿(2)},其中缺失的样本用零填充。首先,由于每个视图中缺失的数据量不同,补全矩阵𝑬(𝑣)和索引矩阵(𝑣)具有不同的维度。结果,完成数据集通过结合𝑿(𝑣)的乘积𝑬(𝑣)和𝑾(𝑣),导致𝑿(𝑣)+𝑬(𝑣)𝑾(𝑣)。其次,引入投影矩阵𝑷(𝑣)进行降维;这有助于获得通用表示𝒀和解决信息不平衡问题。第三,构造相似图以保持数据的几何结构;上述步骤结合在一个框架内,以增强聚类性能。

本工作的主要贡献可以概括如下:

1.与已有成果相比,该方法通过构造补全项来填补不平衡不完整多视图聚类中的缺失样本。它有效地利用了缺失视图的底层信息。

2.结合投影矩阵可使不同视图的维度对齐,减少信息不平衡的影响。此外,图正则化项的积分保留了数据的原始潜在空间结构。

3.设计了一种交替优化算法来有效地求解所提出的模型。对该算法的计算复杂度进行了全面的理论分析。此外,在不同缺失率的数据集上进行了大量实验,验证了该方法优越的聚类性能。

本文其余部分的结构如下。第二节简要介绍了相关工作。第3节介绍了提出的模型所需的初步条件。在第4节和第5节中,详细描述了所提出的模型及其优化算法。第6节分析了所提出的方法在各种数据集上的性能,并将其与十种最先进的算法进行了比较。最后,第7节给出结论。

三、相关工作

        数据补全策略:在处理不完整的多视图数据时,许多传统方法要么忽略缺失数据,要么用现有数据的平均值来填补空白。例如,[32]中为了获得一致潜在表示矩阵,引入了索引矩阵来去除未配对数据的表示矩阵。研究[33,34]为每个视图引入权重矩阵,为缺失样本分配小权重,以减轻缺失数据的影响。然而,这些现有的方法很难获得关于缺失数据的准确信息,并且可能导致显著的偏差,特别是在处理具有高缺失率的多视图数据时。为了从缺失样本中获取信息,[35]采用非负矩阵分解重构缺失视图,并利用这些重构视图寻找潜在表征。[36]使用所有视图上的公共图和每个视图的不完整图来重构对应视图的完整图。此外,数据的另一种输入方法是通过推理。在[28]中,开发了一个重建项来推断每个视图的缺失数据。此外,引入了一个逆图正则化项,以确保跨多个视图的局部结构的一致性。

        投影矩阵:由于多视图数据的维数通常很高,并且不同视图之间存在差异,因此视图之间存在冗余和信息不平衡。该研究[37]通过使用投影矩阵在投影空间中实现共识特征表示来解决信息不平衡问题。然而,这种方法忽略了缺失的样本,可能导致较差的聚类结果。该研究[38]引入了一个投影矩阵,用于将原始数据映射到低维潜在空间。该方法利用现有样本的线性组合来补全缺失样本。该方法在有效地补全缺失样本的同时,减少了冗余信息,并保留了数据固有的空间结构[15,39]。

        图学习:[40]结合了图正则化来保持数据的几何结构并提高聚类性能。然而,在不完整多视图聚类中,缺失数据的存在阻碍了相似图的直接构建。在[41]中,使用𝑘-nearest法构造初始图,然后借助指标矩阵展开为完全图。这个完全图随后作为自适应图补全算法的输入。

       不平衡的不完整多视图聚类:在以前的许多研究中,假设在多视图数据集中,每个视图的丢失数据率是均匀的。然而,在实际应用中,视图之间的缺失率可能会有所不同,从而导致所谓的不平衡不的完整多视图聚类(UIMVC)。42]是UIMVC的首个方法,从生物进化原理中汲取灵感。此外,[43]提出了一种基于张量的方法来解决这个问题。这种方法通过对相似图矩阵应用低秩张量约束来捕获来自不同视图的数据之间的潜在关系。

四、基础知识

在本节中,首先对不完整的多视图数据类型进行分类,然后总结本文中使用的表示法。

3.1. Categorization of incomplete multi-view data

       由于缺失数据的随机性,不完整的多视图数据被分为平衡和不平衡两类,如图2所示。具体来说,图2(a)和图2(b)代表了第一类。图2(a)描述了不完整的多视图数据,其中包括跨两个视图的单视图和成对视图样本,而图2(b)显示带有任意缺失视图的不完整多视图数据,在每个视图中保持一致数量的缺失样本。图2(c)表示第二类,展示了不同视图中不同的数据缺失率。

3.2. Notations

       假设一个不平衡的不完整的多视图数据集有{𝑿(1),𝑿(2),…,𝑿(2)},其中𝑿(𝑣)∈R𝑑𝑣×𝑛,𝑑𝑣表示𝑣th视图的特征维数。其中𝑛表示样本总数,包括𝑛𝑣个缺失样本和𝑛𝑣𝑒个现有样本,缺失样本用零填充。为了提供一个清晰的参考,本文中使用的重要符号总结在表1中。

五、提出的方法

        与传统的不完全多视图聚类相比,不平衡不完整多视图聚类提出了更大的挑战。该领域以前的方法通常只利用现有样本的信息进行聚类,而忽略了缺失样本。然而,在不平衡的不完整多视图数据集中,样本分布的不均匀会导致不同视图间样本数量的显著不平衡。直接忽略缺失样本会影响聚类结果的准确性。为了解决这个问题,利用每个视图的局部特征结构来发现缺失样本的底层信息。补全矩阵引入𝑬(𝑣)和指标矩阵(𝑣)对缺失样本进行填充。具体来说,对于原始数𝑿(𝑣)∈R𝑑𝑣×𝑛,缺失的样本用零填充。然后使用补全矩阵𝑬(𝑣)∈R𝑑𝑣×𝑛𝑣为𝑣th视图生成缺失样本,其中𝑛𝑣是𝑣th视图中缺失实例的数量。为了只获得相应的缺失样本,我们引入𝑣th视图的索引矩阵(𝑣)∈R𝑛𝑣×𝑛,定义如下:

𝛼积极惩罚参数,𝑬^{(𝑣)}_{𝑖},:和表示𝑖th行和𝑗th完成矩阵的行向量𝑬^{(𝑣)}。𝑼∈R𝑑𝑣×𝑛是原始空间中多视图数据的共识表示。(2)中的第二项旨在限制相似特征,并确保恢复的缺失样本是有意义的。𝑮∈R𝑑𝑣×𝑑𝑣为特征维中构造的相似度矩阵,定义为:

根据拉普拉斯矩阵的归一化,将模型的第二项变换为:

        在分析多视图数据时,可以观察到不同的视图显示不同级别的信息,从而导致这些视图之间的信息分布不均匀。在样本不完整的情况下,这会加剧信息不平衡,导致最终聚类结果出现明显偏差。为了解决这个问题,引入了投影矩阵𝑷(𝑣),将不同维数的视图投影到相同维数的子空间中[37]。至此,新模型可以表示为:

其中𝑷(𝑣)∈R𝑐×𝑑𝑣为𝑣th视图的投影矩阵,采用主成分分析(PCA)算法进行初始化[44]。𝑐是投影空间的维度,通常根据簇的数量来选择。𝒀∈R𝑐×𝑛是投影空间中多视图数据的一致表示。

        为了避免退化解,引入不相关约束𝑷(𝑣)𝑺(𝑣)𝑡𝑷(𝑣)𝑇= 𝑐,并对散点矩阵之间的相关性进行限制[45]。此外,使用Frobenius范数的正则化项的合并被用来对投影施加约束。它保证了投影矩阵具有一定程度的可变性和多样性,允许每个投影矩阵提供不同的信息。

其中I𝑐是𝑐-dimensional单位矩阵。考虑(𝑿(𝑣)+𝑬(𝑣)𝑾(𝑣))作为一个整体,它是用𝒁(𝑣)。𝑺(𝑣)𝑡∈R𝑑𝑣×𝑑𝑣散射矩阵,它被定义为𝒁(𝑣)𝒁𝑇(𝑣)。如果样本数小于特征维数,则散点矩阵不是正定的。在多视图聚类中,通常对散点矩阵进行正则化以保证其正定性。引入一个正定常数来重构散点矩阵为:

       为了保留原始数据的几何结构,我们首先使用𝑘-nearest法构建相似图[46]。然而,由于缺失数据的随机性,不同视图中缺失的样本数量不同,导致每个视图中现有样本数量不一致。因此,从可用数据中得出的相似图的维数呈现变化[43]。由未缺失样本构建的相似图定义如下:

          图3显示了图的构造和功能。首先从不平衡的不完整多视图数据中构造不同维数的相似矩阵𝑨(𝑣)。利用指标矩阵𝑴(𝑣),这些相似性矩阵被扩展到一个统一的维度。然后得到一致拉普拉斯矩阵𝑚,该矩阵保持了原始数据的流形结构。此外,通过降低已完成数据的维数,得到一致性表示𝒀。然而,这个过程有可能导致原始数据的底层结构的丢失。因此,采用图正则化𝑇𝑟(𝒀(𝑣)𝑚𝒀𝑇)来保持原始数据的流形结构。

图3所示。图的构造和函数。首先,由不完整数据𝑿(𝑣)构造大小为𝑛^𝑣_𝑒\times 𝑛^𝑣_𝑒的相似矩阵𝑨(𝑣)。指标矩阵𝑴(𝑣)介绍了构建𝑴(𝑣)𝑇𝑨(𝑣)𝑴(𝑣)同样大小𝑛×𝑛所有视图。其次,利用Eq.(10)构造拉普拉斯矩阵。然后,通过𝑚=∑𝑣=1 (𝑣)𝑚得到一致拉普拉斯矩阵。(a)表示一致拉普拉斯矩阵𝑚所包含的流形结构。它在所有视图中维护原始数据空间的流形结构。(b)表示流形结构来自共识表示𝒀。由于𝒀是通过投影完成的数据来构建的,因此在构建过程中可能会丢失原始数据中的一些流形结构。因此,通过考虑𝑚和𝒀中的流形结构,可以得到最终的流形结构(c)。

      最后,在前面详细讨论的基础上,提出最终的优化模型如下:

其中,\beta为权衡参数。在模型(11)中,第一项涉及将补全的完整样本投影到共享的低维空间上,以学习一致性表示。第二项利用特征维数构造相似矩阵,保存图信息,便于样本补全。引入第三项是为了防止平凡解。第四项保留原始数据空间中现有数据的流形结构。

       根据观察模型(11)可以看出,所提出的方法具有以下特点:

      1.通过基于不平衡不完整的多视图数据定义不同的索引矩阵𝑾(𝑣),模型(11)可以自适应地处理各种不完整的情况。

      2.在不平衡不完整的多视图聚类中,利用投影矩阵将高维特征向量映射到相同的低维空间。这减少了冗余和噪声,同时提取了更具代表性的特征。

      3.在模型(6)中,散射矩阵和投影矩阵𝑷(𝑣)的Frobenius范数项共享一个正则化参数𝛾。这提高了降维的有效性和稳定性,并减少了超参数调整的复杂性,使算法更容易使用。详细过程将在下一节中描述。

六、优化

        为了优化目标函数,算法1将其分解为三个子问题。每个子问题都是凸的,每个变量都有一个封闭的解。随着每个变量的求解,目标函数的值逐渐减小。另外,由于目标函数的值是非负的,所以模型(11)的下界为0。这些因素的组合保证了所提出的优化方法收敛于目标问题的局部最优点,从而证实了其收敛性。在实验部分的第7节进一步验证了算法的收敛性。

七、结论

        本文提出了一种名为PCL_UIMVC的新方法,解决了不平衡不完全多视图聚类所带来的挑战。特别是,与现有作品相比,我们构建了不同维度的补全项来填补不平衡的不完整多视图数据中的缺失样本。此外,投影矩阵的引入有助于减轻信息不平衡的影响,图正则化保留了原始数据的几何结构。PCL_UIMVC在统一的框架内结合了缺失样本恢复、投影交叉视图学习和图学习,以获得更好的聚类结果。大量的实验证明PCL_UIMVC在不同丢失数据率下的卓越聚类性能。

       在未来的工作中,我们将扩展我们提出的方法来处理医学诊断中的缺失样本,并提供更有效的解决方案。此外,处理大规模数据集和开发高效、高性能的聚类算法是至关重要的任务

  • 25
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值