一、 CDIMC-net 的研究背景
CDIMC-net 的研究背景是基于多视图聚类问题中的不完整视图。在多视图聚类任务中,数据样本通常由多个视图(即不同的特征表示)组成。然而,在实际应用中,由于各种原因,例如数据采集、传输或存储的问题,某些视图的数据可能是不完整的或缺失的。这种不完整视图的存在给多视图聚类带来了挑战。传统的多视图聚类方法通常假设所有视图都是完整的,忽视了不完整视图的影响。因此,研究人员开始关注如何在存在不完整视图的情况下进行有效的聚类。
在现实世界中,许多数据集包含了多个视图或特征表示,这些视图提供了关于数据的不同方面的信息。多视图聚类是一种利用多个视图的数据进行聚类分析的方法,它可以帮助揭示数据的隐藏模式和结构。然而,传统的多视图聚类方法通常假设所有视图的数据都是完整的,而在实际应用中,数据的某些视图可能会存在缺失或不完整的情况。
二、要解决的问题
CDIMC-net 的研究问题是如何在存在不完整视图的情况下进行有效的多视图聚类。具体来说,研究人员面临以下问题:
(1)几乎所有现有的方法都是基于浅层模型的,很难获得有区别的通用表示。
(2)这些方法通常对噪声或异常值敏感,因为负样本与重要样本被同等对待。
因此,CDIMC-net旨在解决在不完整多视图数据集上进行聚类分析时面临的问题,旨在提供一种能够处理不完整视图和提取准确特征表示的深度学习网络。
三、CDIMC-net的研究动机
在现实世界的数据集中,往往存在某些视图的数据缺失或不完整的情况。这可能是由于数据获取的限制、传感器故障或数据处理错误等原因造成的。传统的多视图聚类方法通常假设所有视图的数据都是完整的,忽视了数据缺失的情况。这会导致在处理不完整视图数据时出现问题,包括丢失了重要信息、影响聚类结果的准确性以及对异常值(outliers)的敏感性等。
因此,CDIMC-net的研究动机是通过引入新的深度学习网络架构和策略,克服传统方法在处理不完整视图数据时的局限性。该方法旨在提供一种更具鲁棒性和准确性的多视图聚类方法,能够充分利用不完整视图数据的信息,提高聚类结果的质量和稳定性。
四、CDIMC-net 的解决思路
CDIMC-net采用了一种综合的方法来解决多视图聚类问题。其主要思路如下:
(1)深度学习网络架构:CDIMC-net引入了深度学习网络来捕捉每个视图的高级特征。它包括视图特定的深度编码器,用于学习每个视图的抽象表示。通过深度编码器,CDIMC-net可以从原始数据中提取出更具有区分度和表征能力的特征,进行数据重排。
(2)图嵌入策略:为了保留数据的局部结构信息,CDIMC-net采用了图嵌入技术。通过构建最近邻图,它能够捕捉数据样本之间的相似性和关联性。图嵌入策略有助于提取数据的潜在结构,从而更好地进行聚类。
(3)自适应样本选择:为了应对噪声和异常值的影响,CDIMC-net引入了自适应样本选择策略。它通过自主学习样本的可靠性和置信度来选择最具代表性的样本进行模型训练。这种策略有助于降低噪声和异常值对聚类结果的干扰,提高模型的鲁棒性。
综合以上思路,CDIMC-net通过结合深度学习、图嵌入和自适应样本选择的技术,旨在提供一种更强大、更准确的多视图聚类方法。它能够有效地利用多视图数据的信息,克服不完整视图和噪声的挑战,提供更可靠、稳定的聚类结果。
具体而言,本文提出了一种新的不完整多视图聚类网络,称为认知深度不整多视图聚类网络(CDIMC-net)。该网络通过将特定于视图的深度编码器和图嵌入策略结合到一个框架中,捕获每个视图的高级特征和局部结构。即通过引入自适应的特征表示和选择可靠样本的策略,CDIMC-net能够有效地处理不完整视图数据,并提供更准确、鲁棒的聚类结果。此外,基于人类的认知:从易到难的进行学习,还引入一种 self-paced的策略来选择置信度高的样本来进行模型训练,以减少异常值的负面影响。即人的认知形式如下:
- 不同形式的特征学习编码器获取高级特征和局部特征
- 以基于认知的方式剔除边际样本的负面影响
五、贡献
六、模型浅析
模型结构:视图特定的深度编码器,self-paced的k-means聚类层,多图嵌入约束。
该模型可以实现对任意不完整视图的聚类。
1、解释
2、执行流程
由模型结构的框架图可知,CDIMC-net~的执行流程如下:
- 对数据进行重新排列和最近邻图构建:将所有视图连接成一个单一的视图,并将缺失实例用相应视图的平均实例进行填充;对堆叠视图进行~kmeans~聚类;根据聚类结果对数据进行重新排序,将分组到同一簇中的样本放在一起;从重新排序的数据中构造最近邻图。
- 进行网络预训练:利用重新排列后的数据、图和指示矩阵训练~IMC~自编码器网络,其中所有缺失视图的特征都设置为~$0~$;利用随机梯度下降(SGD)来优化损失函数,其中包括重构误差和图嵌入误差。
- 进行端到端微调:将~IMC~自编码器网络与多视图聚类层级模型相结合,构成~CDIMC-net;利用端到端微调来进一步优化网络性能,最小化聚类损失和重构损失。
- 在完整和不完整的多视图数据集上进行评估:通过与许多现有的IMC方法进行比较,验证~CDIMC-net~的卓越性能。
3、方法
七、总结
融合层 在我的理解里其实实质上就是对不同视图的特征表示做加权求和的过程。
聚类层实则就是对传统的聚类算法的进行了重新的设计,这可以原本的聚类算法自适应的调整每次的步长。
需要注意的是:这篇文章其实就是通过先预训练再微调这样的一个无监督的学习方式,还有就是它加深自编码器的网络结构,且在最后设计了一个就是聚类层。图嵌入和对比学习?