文献阅读：Incomplete multi-view subspace clustering with adaptiveinstance-sample mapping and deep featur

最新推荐文章于 2024-09-14 19:18:15 发布

麻辣小凉皮

最新推荐文章于 2024-09-14 19:18:15 发布

阅读量237

点赞数 6

分类专栏：文献阅读文章标签：机器学习人工智能算法聚类 matlab 论文阅读论文笔记

本文链接：https://blog.csdn.net/m0_71802074/article/details/135077998

版权

文献阅读专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文为作者看文献后所理解的知识

01 摘要

02 引言

03 符号和相关工作

04 提出算法

05 实验

06 结论

一、摘要

背景：多视角子空间聚类已被广泛应用于实际场景。它融合了多个视角的互补信息，并将每个视角的所有样本视为广义子空间的一组基。同时，它假设一个实例具有所有视角对应的所有特征。背景总结：然而，由于故障，每个视角可能会丢失一些特征，导致了不完整的多视角数据集。本文工作：本文提出了一种具有自适应实例-样本映射和深度特征融合算法（IMDF）的不完整多视角子空间聚类方法。由于注意力机制的良好性能，我们以加权方式融合了由卷积神经网络自适应提取的深度特征，以整合来自不同视角的丰富信息，在自表征阶段之前减少特征之间的冗余，并推广出稳健而紧凑的表示。我们联合处理特征训练和聚类以减弱模型对预先提取特征的敏感性。同时，我们提出了一种修改的加权视角特定实例-样本映射策略，以解决在学习统一潜在子空间中由不同视角样本数量不一致引起的不一致维度问题。实验结果和结论：实验结果表明，我们的方法在包括图像和文档在内的各种真实世界数据集上优于五种最先进的方法。

解读：这篇文献是一篇关于不完全多视图聚类的文章，因此摘要的第一部分就首先介绍了目前多视图的子空间聚类被应用于各个实际场景，这些多视图的数据融合了各个视图的互补信息，将所有样本视为广义子空间的一组基，这个表示他将每个数据集或视图中的所有样本都视为某种特定数学空间的基础。这种方法试图在这些数据视角下找到一种共同的表达方式或模式，进而更好地理解数据之间的关系和结构。同时假设了以下一个实例具有所有视图所对应的特征，对于这些多视图的子空间聚类，文献作者提出由于故障，每一个视图都有可能会丢失一部分的特征，从而导致产生不完全的多视图数据集。基于此，文献作者提出了一种自适应实例-样本映射和深度特征融合的算法来进行不完全多视图的子空间聚类，又因为注意力机制具有良好的性能，因此文献作者以加权的方式融合了卷积神经网络自适应提取的深度特征，以整合来自不同视图的丰富信息，并且在自表征阶段（当我们说某个数据集在自表征阶段时，意味着数据被转换成一种特定形式，使得每个样本能够以其自身和其他样本的线性组合的方式来表示）之前就减少特征之间的冗余，并推广出稳健且紧凑的表示，除此之外，文献作者还联合处理特征训练和聚类用来减弱模型对预先提取特征的敏感性，同时，提出了一种修改的加权视图特定实例-样本的映射策略，用来解决在学习同意潜在子空间中由不同视图样本数量不一致而引发的维度不同问题。基于以上工作，文献作者进行了实验，并得出结论，他所使用的方法包括图像和文档在内的各种真是世界数据集上优于五种最先进的方法。

二、引言

大背景：首先先谈谈多视图数据在当今的影响，多视角或多表示的数据集在实际问题中被广泛应用，如医学分析、计算机视觉、知识图谱等。例如，视频可以通过音频和图片来表示，新闻则可以使用图片和文字来表述。对象的每个视角对应一种特征类型。与单视角数据集相比，多视角能存储更多互补和综合信息。考虑到手动标记的昂贵成本，多视角聚类在历史上应运而生，旨在通过整合综合信息对具有多视角的实例进行分组。这里直接阐明了聚类实验所进行的目标。
过度背景：对近年来对多视图数据的研究进行了简单的概述，引出本文的研究方向不完全多视图聚类，近年来出现了一些多视角聚类研究，大致可分为四类：基于图或多核的、协同训练或正则化的、基于相关性分析的和基于子空间的。然而，大多数现有方法假设所有实例在所有视角具有完整特征，或至少一个视角包含所有实例。在实际应用中，每个视角可能会丢失一些样本。例如，新闻通常由文字和图像描述，但其中一些可能只有一种可用描述，即只有图像或文字描述。因此，研究不完整的多视角聚类具有一定的价值。不完整的多视角聚类假设：（1）实例的所有特征可能高概率地指示相同聚类；（2）任意两个视角可以通过共享实例进行桥接。相关方法可大致分为（1）基于图的算法；（2）基于子空间或空间的算法；（3）基于深度学习的算法。这里阐述了研究不完全多视图数据的研究价值。
过度背景总结：这些基于图的算法旨在独立地融合从不同来源构建的这些图。它们要么使用指示性操作符，比如样本选择矩阵或实例-样本映射策略，要么联合建模配对样本和未配对样本，要么基于可达的相似路径完成缺失的相似性条目。Wen 针对不完整数据集采用了样本选择策略，提出了一个无参数的图模型，用于保留局部信息并学习紧凑的表示。然后，基于对称非负矩阵分解，Yang期望自适应地更新所有可用视图中样本的重要性，并联合组合配对样本和未配对样本的聚类结构学习。Wen提出了一种实例-样本映射策略，以完成所有图，并学习一个通用表示，其中谱约束用于推广紧凑表示，并且低秩表示技术有助于构建每个视图的图。通过使用p次根积分策略来合并不同视图的损失，ZhuGe旨在通过将通用表示和视图特定表示的乘积来学习完整的相似性矩阵，并填补缺失的条目。在最近的研究中，基于图的方法在一些不完整的多视图数据集上表现出良好的性能。然而，它们不仅依赖于预先提取的特征，而且还依赖于图的构建方式，因为通用的图构建方法可能对真实数据集中的混合噪声不够稳健。
小背景子空间聚类：鉴于上述第二个缺点，基于子空间或空间的算法受到了广泛关注，主要包括基于非负矩阵分解（NMF）的算法和基于空间投影的算法。基于NMF的算法使用NMF框架寻求所有视图的最佳表示。Li 使用l1范数处理仅具有两个视图的数据集的潜在表示的稀疏性。在Li的基础上，Rai 和Shao进一步将视图数扩展到两个以上。Shao引入自适应权重，并用l21范数取代l1范数。Rai通过视图到实例的映射学习不同视图之间的集中矩阵，并通过拉普拉斯正则化探索固有的几何结构。Cai统一了两个阶段，即学习潜在表示和聚类，同时对指示变量使用非负和正交约束。Tao使用一个指示对角矩阵来显示实例在特定视图中是否被观察到，以完成潜在表示，其中嵌入学习和低秩性质被用来促进更有区分性的紧凑表示。基于空间投影框架的算法要么期望直接在从数据空间学习到的语义空间中对实例进行聚类，要么通过低维度投影提供紧凑的表示。这些算法表明：（1）不同视图共享相同的语义空间（在机器学习或数据分析中，构建共享的语义空间通常是为了解决多视图数据融合、特征提取、降维或聚类等问题。通过将来自不同来源的信息转换到一个共同的语义空间中，可以更容易地发现数据之间的模式、相似性或关联性。）；（2）通过它们未映射的实例，无监督问题可以转化为监督问题。对于具有两个视图的数据集，Yin通过拉普拉斯图保留内视图和间视图之间的相似性，从而融合不同视图的信息，同时消除了高维度和噪声的不良影响。Yin是扩展而来，并且摆脱了视图数量的限制。Yang构建了一个统一的子空间，并利用样本选择矩阵将一个视图的样本投影到相应的子空间以解决维度不一致的问题，其中图学习、秩最小化和结构稀疏任务被用来实现紧凑的表示。Ji通过在投影后逐个输入配对样本和未配对样本来学习不同聚类的词典，其中Fisher判别分析被用来进一步增强词典的判别能力。
小背景总结：虽然这些基于子空间或空间的算法在真实应用中取得了巨大成功，但它们的性能很大程度上依赖于预先提取的手动特征。一旦手动特征不够有效，这些方法就会表现出较差的性能。为了解决这个问题，基于深度学习的算法[26–28]为聚类问题设计了特定的网络，并在潜在的非线性空间中自适应地提取深层特征。Zhao [28]将非负矩阵分解框架与深度神经网络相结合，同时在完整的高级语义子空间中学习通用表示。Shang [26]通过生成对抗网络（GAN）重构缺失的特征，将每个视图视为一个单独的域，并识别域之间的映射关系。类似于[26]，Wang [27]通过GAN从所有视图中学习一致的聚类结构，推断缺失特征，并从推断过程中获得反馈。需要注意的是，[28]中的方法只能用于非负数据，而[26, 27]中的方法只能处理两个视图的情况。
提出本文的模型：在本文中，我们提出了一种具有自适应实例-样本映射和深度特征融合（IMDF）的不完整多视图子空间聚类算法。IMDF联合处理特征训练和聚类，它不仅通过深度卷积神经网络自适应地提取深层特征，还从不同通道中权重地融合这些特征，以便为特定任务推广紧凑且低维度的表示。同时，IMDF期望将具有不同样本数的所有视图的自表示结果统一到一个共同的表示中，其中通过加权的视图特定实例-样本映射策略来解决不一致维度的问题。我们提出算法的框架如图1所示。

图像解读：首先，进行深度特征提取（Deep Feature Extraction）：指从数据中利用深度学习模型或网络提取具有高层抽象特征的过程。通过深度神经网络等方法，将原始数据转换为更具表征性和可用性的特征。其次进行深度特征融合（Deep Feature Fusion）：指将从不同来源或不同模型中提取的深度特征合并或融合的过程。这个过程可以通过加权融合、串联或平均等方式，将多个特征通道或来源的信息整合在一起。然后进行自表示（Self-Representation）：在聚类任务中，自表示是指数据样本用自身线性组合来表示自己。也就是说，每个样本可以通过其他样本的线性组合来表示，用于表达样本本身与数据集内其他样本之间的关系。最后进行共表示（Co-Representation）：与自表示类似，共表示是指数据样本之间相互表示的过程，但不限于仅使用自己的信息来表示。它可以涉及多个样本一起表示或利用多个样本相互表达的方式来获得更丰富和更具代表性的特征表示。
鉴于自适应非线性深度特征的优越性，文献作者直接将用于单视图数据集的深度子空间聚类网络[29]扩展为更强大的版本，可用于不完整的多视图数据集。此外，多通道的特征张量以加权方式融合，作为鲁棒且低维度的表示，参考了注意力机制。这不仅减少了特征之间的冗余，还提高了自表示阶段的性能。
工作总结：
(1)在学习通用表示的过程中，为解决不同视图引起的不一致维度问题，我们采用了一种修改后的加权视图特定实例-样本映射策略。其基本版本最初在[14]中提出，并平等对待所有视图。实际上，一个视图应该因观察到更多样本而更重要。
(2)我们联合处理特征训练和特定任务的聚类，有利于减弱聚类模型对预先提取特征的敏感性。同时，推断所有视图中缺失关系并修改非缺失关系可以以一种反馈的方式相互影响。
(3)大量实验结果表明，我们提出的算法在八个数据集上比五种最先进的方法具有更显著的优势。
文章结构：本文结构如下。第二节介绍了主要符号和一些相关工作。我们在第三节详细介绍了IMDF算法。第四节展示了实验结果、时间复杂度分析和灵敏度分析。第五节给出了结论和未来工作。

三、符号和相关工作

符号：文献作者用粗体斜体小写字母表示向量，例如 x，用粗体斜体大写字母表示矩阵，例如 X。来自 V 个来源的数据集包括 n 个实例 $\left \{ x_{1},x_{2}...x_{n} \right \}$ ，例如 $X=\left \{ X^{1},X^{2}...X^{V} \right \}$ ，每个视图包括 $n_{i}$ 个样本，具有 $d_{i}$ 个特征。 $h_{i}(\cdot )$ 是第 i 个视图中样本标识和实例标识之间的映射。逆映射表示为 $\widetilde{h}_{i}(\cdot )$ 。由于一个视图可能在不完整的多视图聚类中丢失一些样本，因此 $n_{i}$ 通常小于 n。此外，论文中的一些矩阵范数被定义为 $\left \| A \right \|_{F}=(\sum _{ij}\left | a_{ij} \right |^{2})^{\frac{1}{2}}$ ， $\left \| A \right \|_{1}=\sum _{ij}\left | a_{ij} \right |$ 。 $\lambda_{i}$ 是矩阵 A 的奇异值。样本所有下标的具体含义如图2所示：
图像解读： $i$ 表示视图的索引， $j$ 表示实例id， $k$ 表示样本id
相关工作
这部分工作主要就是介绍了深度多视图聚类和不完全多视图聚类的相关内容，读者可自行前往原文查看。需要原文请私信。
2.2.1使用图正则化的部分多视图聚类NMF（GPMVC）
2.2.2不完全多视图谱聚类具有自适应图学习（IMSC-AGL）
2.2.3深子空间聚类网络（DSC Nets）

四、提出算法

在本节中，文献作者详细阐述了他提出的方法，即不完整多视图子空间聚类与自适应实例-样本映射和深度特征融合算法（IMDF），并展示其网络架构。此部分主要讲解原理，需要详细步骤的请看原文，需要原文请私信，上传资源审核较慢。

深度特征提取：考虑到针对特定任务的深度特征能更好地表示真实数据集的内在结构，借助经典的卷积神经网络框架，将输入数据 $\left \{ X^{i} \right \}_{i=1}^{V}$ 通过自编码器 $\theta_{e^{i}}$ 和解码器 $\theta_{d^{i}}$ 嵌入到非线性空间 $\left \{ M^{i} \right \}_{i=1}^{V}$ 中，以增强非线性能力。 $X^{i}$ 的编码器结果表示为 $M^{i}=X_{\theta_{e^{i}}}^{i}$ ，而 $M^{i}$ 的解码器结果表示为 $\widehat{X}^{i}=M_{\theta _{d^{i}}}^{i}$ 。此外， $M^{i}$ 可以被视为具有多个通道的张量，其中不同通道对应于由卷积核引起的潜在空间中的不同语义特征。同时，参数 $\theta _{v}=\left \{ \theta_{e^{v}},\theta_{d^{v}} \right \}$ 可以通过最小化重构误差进行自适应调整。重构误差定义为：
深度特征融合：深度特征融合我们期望将每个视图中所有通道的所有特征进行融合，因为：（1）一旦将所有通道的所有特征向量化并堆叠，串联向量的维度会变得非常大，增加了模型的计算复杂度。同时，如果将全连接层应用于编码器的结果，需要更新更多参数，计算复杂度较高。（2）在自表示阶段对合理的低维表示有利于提高聚类性能。（3）与预先提取的特征相比，融合的深度特征具有更全面的信息，并且展现出更强大的表示能力。
自表示：由于自表示的优越性，我们采用它来进一步描述第 i 个视图中任意两个样本之间的关系。实际上，与基于核范数或l1范数的自表示模型相比，结合了Frobenius范数的自表示模型在计算上更加优越，并且在去除对角线约束后性能更好，这在[31]中已经得到证明。因此，我们将自表示学习和Frobenius范数结合起来，以搜索第 i 个视图的内在系数矩阵：
共表示：统一的共表示如图5a所示，第i个视图的每个样本可以表示为基本样本的线性组合或由自表示推广得到的系数矩阵 $C^{i}$ 。然后，从所有视图中学习到的统一系数矩阵C∗ ∈ Rn×n可以整合全面信息，并更好地描述任意两个实例之间的关系。然而，由于不一致的ni导致了C∗无法通过对所有 $C^{i}\in \mathbb{R}^{n_{i}\times n_{i}}$ 求和而获得，这导致了不一致的维度问题。为了方便介绍，将所有实例与没有特征i的实例之间的关系称为缺失关系。幸运的是，由部分实例构建的这些视图子空间可以嵌入到由所有实例构建的统一实例-实例子空间中，其中任意两个具有特征i的实例之间的关系是不变的，而缺失关系被设置为零，如（b）所示。视图特定的实例-样本映射策略在[14]中提出并得到验证。然而，它平等地处理了所有视图。一般来说，一个视图的信息在具有更高比例的观察样本中更为重要。因此，加权的实例-样本映射策略可以描述为
为了融合来自不同视图的互补信息，我们鼓励所有系数矩阵的加权和趋向于统一的共表示 $C^{*}$ ，这被建模为
图5：

五、实验

实验部分就是对数据集的操作得出聚类结果，并对结果进行各种分析，读者可自行前往原文查看。需要原文pdf请私信获取。
1.在本节中，文献作者将他提出的算法与五种最先进的不完整多视图聚类方法在八个真实世界数据集上的性能进行比较。所有实验均在一台配备Intel Core i7-6700@2.6GHz、12GB RAM和Microsoft Windows 10.0操作系统的计算机上进行。IMDF的代码是基于TensorFlow实现的。

图像解释：从左往右依次为编码器、通道融合、自表示、通道分离、解码器

2.对比算法：

我们将我们提出的算法与四种最先进的不完整多视图聚类算法进行比较：传统的不完整多视图聚类方法（PVC [19]、MIC [21]、GPMVC [20]、IMSC-AGL [14]）以及基于深度学习的方法（GAN [27]）。

3.结果：

六、结论
本文提出了一种带有自适应实例-样本映射和深度特征融合（IMDF）的不完整多视图子空间聚类算法。考虑到内存需求和不同卷积核自适应提取的特征之间的冗余，我们利用了类似于注意力机制的加权通道融合策略，以泛化低维稳健表示，将来自不同来源的信息结合起来。同时，我们采用了一种修改后的加权实例-样本映射策略来解决不同视图的不同自表示维度不一致的问题，修改后的版本不再平等地对待所有视图，更合理地解决了不完整多视图聚类问题。实验结果表明，与其他五种竞争方法相比，我们提出的算法有显著的改进。未来，我们将专注于有效消除不完整多视图聚类问题中的混合噪声。

简单总结：本人刚开始接触不完全多视图聚类的相关研究，旨在互相交流学习共同进步，有疑问和错误请及时私信，谢谢！原文链接：Incomplete multi-view subspace clustering with adaptive instance-sample mapping and deep feature fusion | Applied Intelligence

需要原文pdf请私信，谢谢！