入门：“A Survey on Multi-View Clustering” 辅助阅读+总结

最新推荐文章于 2025-03-15 22:53:43 发布

KennyWu529

最新推荐文章于 2025-03-15 22:53:43 发布

阅读量2.1k

点赞数 2

文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/KennyWu529/article/details/132853608

版权

写在前面：写辅助阅读是为了记录一下自己读论文的过程和自己对论文的总结，如有出错还望大家海涵，并予以批评指正，也欢迎大家多交流沟通。

想省流的同志可以直接点旁边目录跳到总结部分，具体详见全文，靴靴大嘎。

论文出处：http://arxiv.org/abs/1712.06246

多视图聚类综述

摘要——随着信息获取技术的进步，多视图数据变得无处不在。多视图学习因此在机器学习和数据挖掘领域变得越来越流行。

多视图无监督或半监督学习，例如协同训练、协同正则化已获得相当多的关注。尽管最近多视图聚类（MVC）方法得到了迅速发展，但还没有一个调查来总结和分析当前的进展。因此，本文回顾了组合多个数据视图的常见策略，并基于此总结，我们提出了一种新的 MVC 方法分类法。我们进一步讨论了 MVC 与多视图表示、集成聚类、多任务聚类、多视图监督和半监督学习之间的关系。详细阐述了几个具有代表性的实际应用。为了促进 MVC 的未来发展，我们设想了几个可能需要进一步调查和彻底检查的开放问题。

索引术语——多视图学习、聚类、调查、非负矩阵分解、k 均值、谱聚类、子空间聚类、典型相关分析、机器学习、数据挖掘。

“Index Terms—Multi-view learning, clustering, survey, nonnegative matrix factorization, k means, spectral clustering, subspace clustering, canonical correlation analysis, machine learning, data mining.”

“I. INTRODUCTION” 一、简介

聚类[1]是一种根据受试者之间的相似性将受试者样本分类为子组的范例。聚类是机器学习、模式识别和数据挖掘领域的一项基本任务，具有广泛的应用。一旦可以通过聚类方法获得子组，就可以进行许多后续的分析任务以实现不同的最终目标。传统的聚类方法仅使用受试者的一组特征或一个信息窗口。当每个单独的主题都有多组特征时，如何整合这些视图以帮助识别基本的分组结构是本文关注的问题，这通常被称为多视图聚类。

多视图数据在大数据时代的实际应用中非常常见。例如，网页可以通过出现在网页本身上的单词以及本质上从其他页面指向该网页的所有链接下面的单词来描述。在多媒体内容理解中，多媒体片段可以通过来自视觉摄像机的视频信号和来自录音设备的音频信号同时描述。这种多视图数据的存在引起了多视图学习的兴趣[2]、[3]、[4]，它在半监督学习环境中得到了广泛的研究。

对于无监督学习，特别是多视图聚类，基于单视图的聚类方法在各种问题中无法有效利用多视图信息。例如，多视图聚类问题可能需要识别每个数据视图中不同的主题聚类。在这种情况下，将不同视图的特征连接成单个联合，然后采用单视图聚类方法可能无法达到目的。它没有机制来保证生成的聚类不同于所有视图，因为特征的特定视图很可能比特征联合中的其他视图的权重高得多，这使得分组仅基于其中一个视图。因此，多视图聚类在过去二十年中引起了越来越多的关注，这使得总结现有技术并描述开放问题以指导未来的发展变得必要且有益。

现在我们给出多视图聚类（MVC）的定义。 MVC是一种机器学习范式，通过组合可用的多视图特征信息，将相似的主体分类为同一组，将不同的主体分类为不同的组，并在不同视图之间搜索一致的聚类。

与[1]中聚类算法的分类类似，我们将现有的MVC方法分为两类：生成（或基于模型）方法和判别（或基于相似性）方法。

生成方法尝试学习数据的基本分布，并使用生成模型来表示数据，每个模型代表一个集群。

判别方法直接优化涉及成对相似性的目标函数，以最小化簇内的平均相似性并最大化簇之间的平均相似性。由于判别方法数量众多，根据它们如何结合多视图信息，我们进一步将它们分为五类：

（1）公共特征向量矩阵（主要是多视图谱聚类）

（2）公共系数矩阵（主要是多视图子空间聚类）

（3）公共指标矩阵（主要是多视图非负矩阵分解聚类）

（4）直接视图组合（主要是多核聚类）

（5）投影后视图组合（主要是典型相关）分析（CCA））。

前三个类有一个共同点，即它们共享相似的结构来组合多个视图。

MVC 的研究是由多视图实际应用推动的，通常与开发多视图表示、多视图监督和多视图半监督学习方法相同。因此，这些不同学习范式的异同也值得讨论。它们之间一个明显的共同点是它们都通过多视图信息进行学习。但他们的学习目标不同。多视图表示方法旨在从所有视图中学习主题的联合紧凑表示，而 MVC 旨在执行样本划分，并且 MVC 是在没有任何标签信息的情况下学习的。相比之下，多视图监督和半监督学习方法可以访问全部或部分样本标签信息。这些相关范例中的一些视图组合策略可以被 MVC 借用和改编。此外，本文还详细阐述了 MVC 与集成聚类、多任务聚类之间的关系。

MVC 已应用于计算机视觉、自然语言处理、社交多媒体、生物信息学和健康信息学等许多科学领域。就本文而言，MVC 的方法论论文主要发表在机器学习、模式识别或数据挖掘领域的顶级场所，例如国际机器学习会议（ICML）[5]、[6]、[7] , [8], [9], [10], [11], [12], [13], [14], [15], [16], [17], [18], 神经信息处理系统 ( NIPS）[19]，[20]，IEEE计算机视觉和模式识别国际会议（CVPR）[21]，[22]，[23]，[24]，计算机视觉国际会议（ICCV）[25]，人工智能促进协会（AAAI）[26]，[27]，[28]，[29]，[30]，国际人工智能联合会议（IJCAI）[31]，[32]，[33] ，[34]，[35]，[36]，[37]，SIAM 国际数据挖掘会议（SDM）[38]，[39]，IEEE 国际数据挖掘会议（ICDM）[40]，[41] ，[42]，[43]，[44]。 MVC 方法经常出现的期刊包括 IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI) [45]、IEEE Transactions on Knowledge and Data Engineering (TKDE) [46]、[47]、[48]、[49]、 [50]、IEEE 控制论学报 (TCYB) [51]、[52]、IEEE 图像处理学报 (TIP) [53] 和 IEEE 神经网络和学习系统学报 (TNNLS) [54]。尽管MVC已经渗透到许多领域并在实践中取得了巨大成功，但仍然存在一些开放性问题限制了其进一步发展。我们指出了几个悬而未决的问题，希望它们能够有助于促进 MVC 的发展。通过这次调查，我们希望读者能够更全面地了解 MVC 开发版本以及超越当前的进展。

本文的其余部分安排如下。在第二节中，我们回顾了现有的 MVC 生成方法。第三节介绍了几类判别性 MVC 方法。在第四节中，我们分析了 MVC 和几个相关主题之间的关系。第五节介绍了 MVC 在不同领域的应用。在第六节中，我们列出了 MVC 研究中的几个未解决的问题，旨在帮助推进 MVC 的发展。最后，我们做出结论。

“II. GENERATIVE APPROACHES” 生成方法

生成方法旨在学习生成模型，每个模型都用于从集群生成数据。在大多数情况下，生成聚类方法基于混合模型或通过期望最大化（EM）构建[55]。因此，我们首先介绍混合模型和EM算法。我们还将回顾另一种流行的单视图聚类模型，称为凸混合模型（CMM）[56]，该模型已扩展到多视图情况。

1) 混合模型和 CMM：生成方法假设数据是独立于多个概率分布的混合模型进行采样的。混合分布可以写为

其中 πk 为第 k 个分量的先验概率，且满足 πk ≥ 0，且 ΣK k=1πk = 1，θk 为第 k 个概率密度模型的参数，且 θ = {(πk, θk), k = 1, 2、····，K}是混合模型的参数集。例如，对于高斯混合模型，θk = {μk, Σk}。

EM 是一种广泛使用的混合模型参数估计算法。假设观测数据和未观测数据分别用 X 和 Z 表示。 {X,Z}和X称为完整数据和不完整数据。

在 E（期望）步骤中，使用当前参数值 θold 评估未观测数据的后验分布 p(Z|X, θold)。 E 步骤计算针对某些通用参数值 θ 评估的完整数据对数似然的期望。期望由 Q(θ, θold) 表示，由下式给出

第一项是潜在变量 Z 的后验分布，第二项是完整数据对数似然。

根据最大似然估计，M步通过最大化函数（2）来更新参数

请注意，对于聚类，X 可以被视为观察数据，而 Z 是潜在变量，其条目 znk 表示第 n 个数据点来自第 k 个分量。

另请注意，对于不同的分布假设，用于在 E 步骤中评估的后验分布形式以及用于评估参数的完整数据对数似然的期望是不同的。可以采用高斯分布或任何其他概率分布形式，这取决于具体的应用。

CMM [56] 是简化的混合模型，可以在从数据集中提取代表性样本后将数据点概率性地分配给聚类。通过最大化对数似然，所有实例都竞争成为集群的“中心”（代表性样本）。与接收最高先验的分量components 相对应的实例被选择为样本，然后将剩余实例分配给“最接近”的样本。分量的先验是 CMM 唯一可调整的参数。

给定数据集 X = x1, x2, · · · , xN ∈ Rd×N ，CMM 分布为 Q(x) = ΣN j=1 qjfj(x), x ∈ Rd，其中 qj ≥ 0 表示满足约束 ΣN j=1 qj = 1 第 j 个分量的先验概率，fj(x) 是指数族分布，其期望参数等于第 j 个数据点。由于指数族和 Bregman 散度之间的双射关系 [57]，指数族 fj(x) = CΦ(x)exp(−βdΦ(x, xj)) 其中 dΦ 表示计算分量分布的 Bregman 散度， CΦ(x) 与 xj 无关，β 是控制分量锐度的常数。

需要最大化的对数似然为 L(X; {qj}Nj=1) = 1/N ΣN i=1 log( ΣN j=1 qj fj (xi)) = 1/N ΣN i=1 log( ΣN j=1 qj exp(−βdΦ(xi, xj)))+ const。

如果经验样本是同等抽取的，即抽取每个样本的先验为 ˆ P = 1/N ，则对数似然可以等效地用 ˆ P 和 Q(x) 之间的 Kullback Leibler (KL) 散度表示为

其中 H( ˆ P ) 是经验分布 ˆ P (x) 的熵，不依赖于参数 qj。现在，问题变成最小化（4），它是凸的，可以通过迭代算法来求解。在这样的算法中，先验概率的更新规则由下式给出

通过要求 K 个具有最高 qj 值的实例作为样本，然后将每个剩余实例分配给该实例具有最高后验概率的样本，将数据点分组为 K 个不相交的簇。

请注意，聚类性能受 β 值的影响。在[56]中，使用经验规则β0 = N 2logN/ ΣN i,j=1 dΦ(xi, xj)来确定参考值β0，以确定β的合理范围，该范围在β0附近。更多细节参见论文[56]。

2）基于混合模型或EM算法的多视图聚类：[58]中的方法假设两个视图是独立的，文档聚类问题采用多项分布。它以双视图情况为例，在每个视图上执行 M 和 E 步骤，然后在每次迭代中交换两个单独视图中的后验。如果在每个视图中固定次数的迭代中观察数据的对数似然没有达到新的最大值，则优化过程终止。

论文[59]提出了有限混合模型的两个多视图 EM 算法版本：第一个版本可以看作是在每个视图中运行 EM，然后通过在每次新的 EM 迭代之前添加每个视图中生成的加权概率聚类标签来进行组合，而第二个版本可以被视为两个视图的组成部分的某种概率信息融合。

具体来说，基于用于单视图聚类的 CMM，[60]中提出的多视图版本变得非常有吸引力，因为它可以定位全局最优值，从而避免标准混合模型的初始化和局部最优问题，这些问题需要多次执行EM 算法。

对于多视图CMM，具有 m 个视图的每个 xi 表示为 {xi1, xi2, ···, xim}, xiv ∈ R^dv ，

每个视图的混合分布为 Qv(xv) = ΣN j=1 qj fvj (xv) = CΦ(xv) ΣN j=1 qj exp(−βvdΦv(xv, xjv))。

为了在所有视图中追求共同的聚类，所有 Qv(xv) 共享相同的先验。此外，经验数据集分布 ˆPv(xv) = 1/N , xv ∈ {x1v, x2v, · · · , xNv } 与每个视图相关联，并且多视图算法最小化 KL 散度之和所有视图中ˆPv(xv) 和 Qv(xv) 之间的约束 ΣN j=1 qj = 1

很容易看出优化目标是凸的，因此可以找到全局最小值。

先验更新规则如下：

第 j 个实例相关联的先验 qj 是衡量该实例成为样本的可能性（考虑所有视图）的指标。通过β0v =N2logN/ΣN i，j=1 dΦv（xiv，xjv）在经验定义的β0v 的范围内确定适当的βv值。从方程 (6) 可以发现，所有观点对总和的贡献是相等的，而不考虑它们的重要性不同。为了克服这一限制，[61]中提出了多视图 CMM 的加权版本。

“III. DISCRIMINATIVE APPROACHES” 三．判别方法

与生成方法相比，判别方法直接优化目标以寻求最佳聚类解决方案，而不是首先对样本进行建模，然后求解这些模型以确定聚类结果。直接关注聚类的目标使得判别性方法得到更多的关注并得到更全面的发展。到目前为止，大多数现有的 MVC 方法都是判别式方法。根据如何组合多个视图，我们将 MVC 方法分为五个主要类别，并介绍了每组中的代表作品。

MVC的设置在II-2中有介绍。 MVC 的目标是将 N 个对象聚类为 K 个类别。也就是说，最终我们将得到一个隶属度矩阵 H ∈ RN×K 来指示哪些受试者属于同一组，而其他受试者属于其他类，H 的每行条目之和应为 1 以确保每一行都是一个概率。

如果每一行只有一个条目为1，其他条目均为0，则为所谓的硬聚类，否则为软聚类。

“A. Common Eigenvector Matrix (Mainly Multi-View Spectral Clustering)” 公共特征向量矩阵（主要是多视图谱聚类）

这组 MVC 方法基于常用的聚类技术谱聚类。由于谱聚类关键取决于图拉普拉斯的构造，并且所得特征向量反映了数据的分组结构，因此这组 MVC 方法通过假设所有视图共享相同或相似的特征向量矩阵来保证获得共同的聚类结果。有两种代表性方法：协同训练谱聚类[6]和协同正则化谱聚类[19]。在讨论它们之前，我们首先介绍谱聚类[62]。

1）“Spectral Clustering” 谱聚类：谱聚类是一种利用图拉普拉斯算子特性的聚类技术，其中图边表示数据点之间的相似性，并解决图[63]上归一化最小割问题的松弛问题。与其他广泛使用的方法（例如仅拟合球形簇的k-means方法）相比，谱聚类可以适用于任意形状的簇并表现出良好的性能

给定 G = (V , E) 作为带权无向图，其顶点集 V = v1, · · · , vN 。图的数据邻接矩阵定义为W，其条目wij表示两个顶点vi和vj的相似度。如果 wij = 0，则表示顶点 vi 和 vj 不相连。显然 W 是对称的，因为 G 是无向图。度矩阵 D 定义为对角矩阵，对角线上每个顶点的度为 d1,···,dN，其中 di = ΣN j=1 wij 。通常，图拉普拉斯算子为 D − W，归一化图拉普拉斯算子为 ̃L = D−1/2(D − W )D−1/2。在许多谱聚类工作中，例如[62], [6], [19], L = D−1/2W D−1/2 还用于将最小化问题 (9) 变为最大化问题 (8)，因为 L = I − ̃L 其中I 是单位矩阵。遵循[62]、[6]、[19]中采用的相同术语，我们随后将 L 和 ̃L 命名为归一化图拉普拉斯算子。

L = D - W

̃L = Lsym = D−1/2 L D−1/2 = D−1/2(D − W )D−1/2 = I - D−1/2WD−1/2 = L

Lrw = D−1 L = I - D−1W

后两者详见论文“A tutorial on spectral clustering”

现在单视图谱聚类方法可以表述如下：

这也相当于以下问题：

其中 tr 表示矩阵的迹范数。矩阵U的行是数据点的嵌入，可以将其输入k-means以获得最终的聚类结果。 [64]中瑞利-里茨“Rayleigh-Ritz” 定理的一个版本表明，上述优化问题的解是通过选择 U 作为矩阵给出的，该矩阵分别包含 L 或 ̃ L 的最大或最小 K 个特征向量作为列。

为了更好地理解谱聚类方法，我们概述了一种常用的算法[62]如下：

• 构造邻接矩阵W

• 计算归一化拉普拉斯矩阵L = D−1/2WD−1/2。

• 计算L 的特征向量，并将前K 个特征向量作为列堆叠起来，构建N × K 矩阵U。

• 对U 的每一行进行归一化以获得Usym。//每行条目之和应为 1 以确保每一行都是一个概率。

• 运行k-means 算法对Usym 的行向量进行聚类。

• 如果通过k-means 算法将Usym 的第i 行分配给聚类k，则将主体i 分配给聚类k。

除了对称归一化算子 Usym 之外，还常用另一个归一化算子 Ulr = D−1W 。有关谱聚类的更多详细信息，请参阅[65]。

2) Co-Training Multi-View Spectral Clustering 协同训练多视图谱聚类：对于半监督学习，当标记和未标记数据都可用时，两个视图的协同训练已成为广泛认可的想法。它假设在两个视图中构建的预测模型将以高概率导致同一样本的相同标签。

保证协同训练成功有两个主要假设：

（1）充分性：每个视图本身足以进行样本分类

（2）条件独立性：给定类标签，视图有条件独立。

与论文A Survey on Multi-view Learning 相比，少了条件：

（b）兼容性：两个视图中的目标函数以高概率预测同时出现的特征的相同标签

在原始协同训练算法[66]中，使用标记数据在每个视图中训练两个初始预测函数f1和f2，然后重复执行以下步骤：将f1预测的最置信度示例添加到标记集中以训练 f2，反之亦然，然后在放大的标记数据集上重新训练 f1 和 f2。可以看出，经过多次迭代后，f1 和 f2 在标签上将彼此一致。

对于协同训练多视图谱聚类，动机是相似的：所有视图中的聚类结果应该一致。在谱聚类中，图拉普拉斯算子的特征向量对聚类的判别信息进行编码。因此，协同训练多视图谱聚类[6]使用一个视图中图拉普拉斯的特征向量对样本进行聚类，然后使用聚类结果修改另一视图中的图拉普拉斯算子。

相似度矩阵（也称为邻接矩阵）WN×N的每一列可以被视为一个N维向量，表示第i个点与图中所有点的相似度。由于最大的K个特征向量具有用于聚类的判别信息，因此可以沿着这些方向投影相似性向量以保留用于聚类的判别信息并丢弃可能混淆聚类的聚类内细节。之后，将投影信息投影回原始N维空间，得到修改后的图。由于投影矩阵的正交性，逆投影相当于转置操作。

为了使协同训练谱聚类算法更加清晰，我们借用了[6]中的算法1。请注意，矩阵 S 上的对称化运算符 sym 在算法 1 中定义为 sym (S) = (S + ST)/2。

输入：两个视图的相似度矩阵：K1、K2

输出：分配给 k 个聚类

初始化：Lv，Uv0

for i=1 to 迭代次数iter：

1.2.

3.使用 S1 和 S2 作为新的图相似度并计算拉普拉斯算子。求解最大的 k 个特征向量以获得 U1i 和 U2i。

end for

4.行归一化U1i 和 U2i。

5.形成矩阵 V = Uvi，其中 v 被认为是信息量最大的先验视图。

“信息量最大”：ex.互信息最大 I(X;Y) = H(X) + H(Y) - H(X,Y)

ex. 论文A Survey on Multi-view Learning 7.2 多视图Fisher判别分析

如果没有关于视图信息量的先验知识，矩阵 V 也可以设置为两个 Uvi 的按列串联。

6.如果通过 k-means 算法将 V 的第 j 行分配给聚类 c，则将示例 j 分配给聚类 c。

3) Co-Regularized Multi-View Spectral Clustering 共同正则化多视图谱聚类：共正则化是半监督多视图学习中的一种有效技术。共正则化的核心思想是最小化两个视图的预测函数之间的差异，作为目标函数的一部分。然而，无监督学习像聚类中没有这样的预测函数，那么如何在聚类问题中实现共正则化的思想呢？共同正则化多视图谱聚类[19]采用图拉普拉斯算子的特征向量在半监督学习场景中发挥类似预测函数的作用，并提出了两种共同正则化聚类方法。

令U (s) 和U (t) 为对应于任意一对视图的图拉普拉斯L(s) 和L(t) (1 ≤ s, t ≤ m, s ≠ t) 的特征向量矩阵。第一个版本使用成对的共同正则化标准，强制 U(s) 和 U(t) 尽可能接近。

两个视图 s 和 t 之间的聚类分歧的度量为 D(U (s), U (t)) = ‖ K(s) / ‖K (s) ‖2 F − K (t) /‖K (t) ‖ 2F ‖2F ，其中使用线性核的 K(s) = U (s)U (s)T 是 U(s) 的相似度矩阵。

F-范数：Frobenius范数，计算方式为矩阵元素的绝对值的平方和再开方。

由于‖K (s) ‖ 2F = K，其中 K 是聚类的数量，因此两个视图中聚类解之间的不一致可以通过 D(U (s), U (t)) = −tr(U (s)U (s)T U (t)U (t)T )。将任意一对视图之间的不一致度量集成到谱聚类目标函数中，成对共正则化多视图谱聚类可以形成为以下优化问题：

超参数 λ 用于权衡谱聚类目标和谱嵌入不一致项。获得嵌入后，每个 U 都可以用于 k-means 聚类方法，最终结果略有不同。

第二个版本称为基于质心的共同正则化，通过将每个视图的特征向量矩阵正则化为共同的共识特征向量矩阵，强制每个视图的特征向量矩阵相似。相应的优化问题表述为

与成对共正则化版本相比，基于质心的多视图聚类不需要组合获得的所有视图的特征向量矩阵来运行 k 均值。然而，基于质心的版本有一个潜在的缺点：噪声视图可能会影响最佳特征向量，因为它取决于所有视图。

//第二个版本适合无噪声或者已经处理过的视图数据，有噪声时用第一个版本

Cai et. al. [67]使用跨视图的公共指示矩阵来执行多视图谱聚类，并导出了类似于基于质心的共正则化方法的公式。主要区别在于[67]使用 tr((U (*) − U (s))T(U (*) − U (s))) 作为每个视图特征向量矩阵和公共特征向量矩阵之间的不一致度量，而共同正则化多视图谱聚类[19]采用tr(U (s)U (s)T U (*)U (*)T )。优化问题[67]被表述为

其中U*≥0使得U*成为最终的聚类指标矩阵。与一般谱聚类先得到特征向量矩阵，然后进行聚类（如对初始化条件敏感的k表示）来分配聚类不同，Cai等人 [67]直接求解最终的聚类指标矩阵，因此对初始条件更加鲁棒。

Cai的版本[67]直接求解最终的聚类指标矩阵，对初始条件更加鲁棒。

4）其他：除了上面讨论的两种代表性的多视图谱聚类方法之外，Wang等人 [38]在视图中强制使用公共特征向量矩阵，并制定一个多目标问题，然后使用Pareto优化来解决该问题。

松弛核 k 均值可以被证明等同于谱聚类，请参阅下面的第 III-D2 小节，Ye 等人[68]提出了一种用于多视图聚类的共同正则化内核 k 均值。通过多层格拉斯曼流形解释，Dong 等人[69]通过成对共正则化多视图谱聚类获得了相同的公式。

“B. Common Coefficient Matrix (Mainly Multi-View Subspace Clustering)” 公共系数矩阵（主要是多视图子空间聚类）

在许多实际应用中，即使给定的数据是高维的，问题的内在维度往往很低。例如，给定图像中的像素数量可能很大，但仅使用少数参数来描述场景的外观、几何形状和动态。这激励了寻找底层低维子空间的发展。实际上，可以从多个子空间对数据进行采样。子空间聚类[70]是找到底层子空间，然后根据识别的子空间正确聚类数据点的技术。

1) Subspace clustering 子空间聚类：子空间聚类利用数据样本的自我表达特性[71]，即每个样本可以由少数其他数据样本的线性组合来表示。经典的子空间聚类公式如下：

其中Z = {z1, z2, ···, zN } ∈ RN×N 为子空间系数矩阵（表示矩阵），每个zi 是原始数据点xi 基于子空间的表示。 E ∈ RN×N 是噪声矩阵。

子空间聚类可以表述为以下优化问题：

约束Z(i, i) = 0是为了避免数据点由其自身表示的情况，而ZT1 = 1表示数据点位于仿射子空间的并集中。 zi 的非零元素对应于来自同一子空间的数据点。

1.关于ZT1 = 1表示数据点位于仿射子空间的并集中：

假设我们有四个数据点 x1, x2, x3, x4，它们都在同一个平面上，那么我们可以写出：

消除了常数项，得到一个没有常数项的 Z。这样，Z 的非零元素就表示了数据点之间的相似性，也就是同一子空间的数据点。

2. 关于zi 的非零元素对应于来自同一子空间的数据点。

Z的非零元素就表示了数据点之间的相似性，也就是同一子空间的数据点。如果两个数据点在同一个子空间上，那么它们之间的相似性就很高。

例如，如果 x1 和 x2 在同一个平面上，那么我们可以用很小的（注意到 Z 的每一列都是一个概率向量，也就是说，它们的元素之和都等于 1。因此很小是相对于1，ex.0.8）a12 和 a21 来表示 x1 = a12 x2 和 x2 = a21 x1。这样，Z 中的 z1 和 z2 就会有很大的非零元素 a12 和 a21。（很大是相对于其他aij而言）。

得到子空间表示Z后，相似度矩阵W = (|Z|+|ZT|)/2 可以进一步构建图拉普拉斯，然后对该图拉普拉斯进行谱聚类，得到最终的聚类结果。

2) Multi-View Subspace Clustering 多视图子空间聚类：利用多视图信息，可以从每个视图获得每个子空间表示Zv。

为了从多个视图中获得一致的聚类结果，Yin 等人[72]通过强制每对视图中的系数矩阵尽可能相似来共享公共系数矩阵。优化问题表述为

其中 ‖Z(s) − Z(t)‖1 是基于 l1 范数的成对共正则化约束，可以缓解噪声问题。 ‖Z‖1 用于强制稀疏解。 diag(Z) 表示矩阵 Z 的对角线元素，零约束用于避免平凡解（每个数据点代表其自身）。

王等人 [73]强化了类似的想法来组合多视图信息。除此之外，它采用了多图正则化，每个图拉普拉斯正则化表征了视图相关的非线性局部数据相似性。同时，它假设视图相关的表示是低秩且稀疏的，并考虑数据中的稀疏噪声。

王等人 [53]提出了一种基于角度的相似性来衡量多个视图中的相关一致性，并获得了多视图数据的鲁棒子空间聚类。与上述方法不同，这三项工作[35]、[36]、[74]采用了一般的非负矩阵分解公式，但共享两个视图样本的公共表示矩阵，并保持每个视图表示矩阵特定。

赵等[26]采用深度半非负矩阵分解来执行多视图聚类，在最后一层强制使用公共系数矩阵来利用多视图信息。

“C. Common Indicator Matrix (Mainly Multi-View Nonnegative Matrix Factorization Clustering)” 通用指标矩阵（主要是多视图非负矩阵分解聚类）

1) Nonnegative Matrix Factorization 非负矩阵分解（NMF）：

对于非负数据矩阵 X ∈ R+d×N ，非负矩阵分解 [75] 寻求两个非负矩阵因子 U ∈ R+d×K + 和 V ∈ R+N×K ，使得它们的乘积是 X 的良好近似：

其中K表示所需的降维（对于聚类，它是簇的数量），U是基础矩阵，V是指示矩阵。

//根据下面2），我的理解是基本矩阵U可以理解为数据的基本特征或组成部分，指示矩阵V可以理解为数据的系数或权重，可以看作降维

由于非负约束，NMF 的一个广为人知的特性是它可以学习基于部分的表示。它在许多应用中都是直观且有意义的，例如在人脸识别中[75]。许多这些应用中的样本，例如信息检索[75]和模式识别[76]，可以解释为非负基向量的加性组合。 NMF 已成功应用于聚类分析，并显示出最先进的性能[75]、[77]。

2) Multi-View Clustering based on NMF 基于NMF的多视图聚类：

为了在 NMF 框架中结合多视图信息，Akata 等人 [78]在不同视图之间强制使用 NMF 中的公共指示矩阵来执行多视图聚类。然而，指标矩阵 V (v) 在相同尺度下可能不具有可比性。为了保持不同观点的聚类解决方案有意义且具有可比性，Liu 等人[79]强制约束将每个视图相关的指示矩阵推向公共指示矩阵，这导致了另一个受 NMF 和概率潜在语义分析之间的联系启发的归一化约束。最终优化问题表述为：

约束 ‖U .,k (v)‖1 = 1 用于保证不同 v 的 V (v) 在同一范围内，以便视图相关指标矩阵 V (v) 与共识指标矩阵 V (*) 之间的比较是合理的。获得共识矩阵V*后，数据点i的聚类标签可以计算为argmaxkV*i,k。

3) Multi-View K-Means 多视图K-Means：

k-均值聚类方法可以通过引入指示矩阵 H 使用 NMF 来表示。k-均值聚类的 NMF 公式为

其中 G ∈ Rd×K 的列给出簇质心。

由于 k-means 算法不会遭受特征分解所需的昂贵计算成本，因此它可能是大规模数据聚类的不错选择。为了处理大规模多视图数据，Cai 等人[31]提出了一种多视图k-means聚类方法，采用跨不同视图的公共指示矩阵。优化问题表述如下：

//相比于k-均值聚类的 NMF ，加了一个权重α（v）

其中 α(v) 是第 v 个视图的权重，γ 是控制权重分布的参数。通过学习不同视图的权重α，重要的视图将在多视图聚类过程中获得较大的权重。

4) Others 其他：

如前所述，子空间聚类通常有两个步骤：找到子空间表示，然后在根据子空间表示计算出的图拉普拉斯上运行谱聚类。

为了从不同的角度识别一致的聚类，Gao 等人[80]合并了子空间聚类中的这两个步骤，并在不同视图之间强制执行一个公共指示矩阵。公式如下：

其中 Z(v) 是第 v 个视图的子空间表示矩阵，W (v) = |Z(v)|+|Z(v)T|/2，D(v)是对角矩阵，对角元素定义为dvi,i = Σ j wvi,j ，并且H是公共指示矩阵，其指示所有视图的唯一聚类分配。

虽然这种多视图子空间聚类方法是基于子空间聚类的，但它并不强制使用公共系数矩阵Z，而是对不同视图使用公共指示矩阵。因此，我们将其归入这一组。我把这个移到这里是因为这不是 NMF。

Wang et al. [7] 通过公共指标矩阵集成多视图信息，并通过将问题表述如下，同时为不同数据簇选择特征：

其中 X = {x1, x2, ···, xN } ∈ Rd×N ，但这里每个 xi 包括所有 m 个视图的特征，每个视图有 dj 个特征，使得 d = Σm j=1 dj。系数矩阵W=[w1 1,···,wK 1; · · · , · · · , · · · , ; w1 m , · · · , wK m ] ∈ Rd×K 包含 K 个簇的每个特征的权重，b ∈ RK×1 是截距向量，1N 是 1 的 N 元素常数向量，并且 H = [h1, · · · , hN ]T ∈ RN×K 是聚类（分配）指示矩阵。正则化器 ‖W ‖G1 = ΣK i=1 Σm j=1 ‖wi j ‖2 是组 l1 正则化，用于评估整个视图的特征作为一个整体对于集群的重要性，而 ‖W ‖2,1 = Σ d i=1 ‖w i ‖2 是 l2,1 范数，用于从所有视图中选择对所有集群都很重要的单个特征。

在[81]中，采用矩阵分解方法来协调各个视图产生的聚类。具体来说，创建一个包含每个单独视图的分区指标的矩阵，然后将其分解为两个矩阵：一个显示单独分组对最终多视图聚类的贡献，称为元簇“meta-clusters” ，另一个显示实例到元集群的分配。唐等人[40]将多视图聚类视为具有多个图的聚类，每个图都通过具有两个因子的矩阵分解来近似：图特定因子和所有图共有的因子。钱等人[82]要求每个视图的指示矩阵尽可能接近公共指示矩阵，并采用拉普拉斯正则化来同时维护视图的潜在几何结构。

除了使用通用的指示矩阵之外，[83]、[84]、[85]还引入了权重矩阵来指示是否存在缺失条目，从而解决缺失值问题。多视图自步聚类方法[34]考虑了样本和视图的复杂性来缓解局部最小值问题。陶等人[32]强制执行一个共同的指标矩阵，并以集成的方式寻求所有观点之间的共识聚类。另一种利用公共指标矩阵组合多个视图的方法[21]采用线性判别分析思想，自动权衡不同视图。对于基于图的聚类方法，首先获得每个视图的相似度矩阵，Nie 等人 [33]假设一个公共指标矩阵，然后通过最小化公共指标矩阵与每个相似度矩阵之间的差异来解决问题。

D. Direct Combination (Mainly Multi-Kernel Based MultiView Clustering) 直接组合（主要是基于多内核的多视图聚类）

除了在不同视图之间共享某些结构的方法之外，通过内核直接进行视图组合是执行多视图聚类的另一种常见方法。一种自然的方法是为每个视图定义一个内核，然后将这些内核组合成凸组合[8]、[86]、[87]。

1) Kernel Functions and Kernel Combination Methods 核函数及核组合方法：

核是一种仅通过线性学习算法来学习非线性问题的技巧，因为核函数 K : X × X → R 可以直接给出特征空间中的内积，而无需显式定义非线性变换 Φ 。

常见的核函数有以下几种：

• Linear kernel 线性核: K(xi, xj) = (xi · xj),

• Polynomial kernel 多项式核: K(xi, xj) = (xi · xj + 1)d,

• Gaussian kernel (Radial basis kernel) 高斯核（径向基核）: K(xi, xj) = (exp( − ‖xi−xj ‖2 / 2σ2 ),

• Sigmoid kernel: K(xi, xj) = (tanh(ηxi · xj + ν)).

再生核希尔伯特空间（RKHS）中的核函数可以被视为向量空间中的相似函数[88]，因此我们可以在谱聚类和核 k 均值方法中使用核作为非欧几里得相似性度量。

已经有一些关于聚类的多核学习的工作[89]、[90]、[91]，但是它们都是针对单视图聚类的。如果从每个视图派生一个内核，并将不同的内核精心组合起来处理聚类问题，那么它将成为多视图聚类的多内核学习方法。显然，多核学习[92]、[93]、[94]、[95]可以被认为是此类多视图聚类方法中最重要的部分。

组合多个内核的方法主要分为三类[96]：

• Linear combination 线性组合：包括两个基本子类：未加权和 K(xi, xj) = Σm v=1 kv(xiv, xjv) 和加权和 K(xi, xj) = Σm v=1 wvq(xiv, xjv) 其中 wv ∈ R+ 表示第 v 个视图的核权重，Σm v=1 wv = 1，q 是控制权重分布的超参数，

Nonlinear combination 非线性组合：它使用核方面的非线性函数，即乘法、幂和幂，

• Data-dependent combination 数据相关组合：它为每个数据实例分配特定的核权重，这可以识别数据中的局部分布并学习不同区域的正确核组合规则。

2) Kernel K-Means and Spectral Clustering 内核 K 均值和谱聚类：

核kmeans [97]和谱聚类[98]是两种基于核的聚类方法，用于优化簇内方差。设 Φ(·) : x ∈ X → H 是将 x 映射到 RKHS H 的特征映射。内核 k 均值方法被表述为以下优化问题，

其中 H ∈ {0, 1}N×K 是聚类指标矩阵（也称为聚类分配矩阵），nk = ΣN i=1 Hik 和 μk = 1/nk ΣN i=1 HikΦ(xi) 是数量第 k 个簇中的点和第 k 个簇的质心。对于核矩阵 K，其第 (i, j) 个条目为 Kij = Φ(xi)TΦ(xj)，L = diag([n1−1 , n2−1 , · · · , nK−1 ]) 且 1l ∈ Rl，全为 1 的列向量

等式 (22) 可以等效地重写为以下矩阵向量形式，

对于上述核k均值矩阵因子形式，矩阵H是二元的，这使得优化问题难以求解。通过松弛矩阵H取任意实数，可以近似上述问题。具体来说，定义U = HL1/2 并令U取实数，进一步考虑Tr(K)为常数，式(1) (23) 将放宽至

HTH = L−1 导致 U 上的正交约束告诉我们，最优 U 可以通过核矩阵 K 的前 K 个特征向量获得。因此，式(24)可以被认为是谱聚类的广义优化公式。请注意等式 (24) 等价于式(8)

L = D-1/2WD-1/2

如果核矩阵K采用归一化Gram矩阵形式。

3) Multi-Kernel Based Multi-View Clustering 基于多内核的多视图聚类：

假设有 m 个可用的核矩阵，每个核矩阵对应一个视图。为了充分利用所有视图，加权组合 K = Σmv=1 wvp K(v), wv ≥ 0, Σmv=1 wv = 1, p ≥ 1 将被用于核 k 均值 (24 ）和谱聚类（8）得到相应的多视图核k-means和多视图谱聚类[41]。

使用相同的非线性组合，但具体设置 p = 1，Guo 等人 [99]通过进一步采用核对齐将谱聚类扩展到多视图聚类。

由于所选内核的潜在冗余，Liu 等人[28]引入了矩阵诱导的正则化来减少冗余并增强所选内核的多样性，以达到提高聚类性能的最终目标。

通过将模糊c均值 fuzzy c-means 中原来的欧氏范数度量替换为数据空间中的核导出度量，并采用加权核组合，Zhang等人[100]成功地将模糊c均值扩展到对噪声和异常值具有鲁棒性的多视图聚类。

Fuzzy c-means是一种模糊聚类算法，它可以将数据集分成N个聚类，每个数据点都以一定程度属于每个聚类。

在存在不完整多视图数据集的情况下，通过优化共享数据实例的对齐，Shao等人 [43]共同完成了不完整数据集的核矩阵。

为了克服与内核 k 均值相关的集群初始化问题，Tzortzis 等人 [54]提出了一种全局内核 k-means 算法，这是一种确定性和增量方法，通过全局搜索过程在每个阶段添加一个集群，该全局搜索过程由从合适的初始点多次执行内核 k-means 组成。

4) Others 其他：

除了基于多内核的多视图聚类之外，还有一些其他方法使用特征的直接组合来执行多视图聚类，如[21]、[33]。在[46]中，两级权重：视图权重和变量权重被分配给多视图数据的聚类算法，以识别相应视图和变量的重要性。为了将模糊聚类方法扩展到多视图聚类，对每个视图进行加权，并分别在[42]和[51]中获得模糊c均值和模糊k均值的多视图版本。

有待查看

E. Combination After Projection (Mainly CCA-Based MultiView Clustering) 投影后组合（主要是基于CCA的多视图聚类）

对于多视图数据，所有视图都具有相同的数据类型（如分类或连续），直接将它们组合在一起是合理的。然而，在现实应用中，多种表示可能具有不同的数据类型，并且很难直接比较它们。例如，在生物信息学中，遗传信息可以是一种观点，而临床症状可以是患者聚类分析中的另一种观点[13]。显然，这些信息不能直接组合。此外，高尺寸和噪声难以处理。为了解决上述问题，引入了最后一种也是重要的组合方式：投影后组合。最常用的技术是典型相关分析（CCA）和CCA的内核版本（KCCA）。

1）CCA和KCCA：

为了更好地理解这种视图组合风格，简要介绍了CCA和KCCA（更多详细信息请参阅[101]）。给定两个数据集 Sx = [x1, x2, · · · , xN ] ∈ Rdx × N 和 Sy = [y1, y2, · · · , yN ] ∈ Rdy × N 其中每个条目 x 或 y 的均值为零， CCA 的目标是找到 x 的投影 wx ∈ Rdx 和 y 的另一个投影 wy ∈ Rdy，使得 Sx 和 Sy 在 wx 和 wy 上的投影之间的相关性最大化，

其中 ρ 是相关性，Cxy = E[xyT] 表示 x 和 y 均值为零的协方差矩阵。观察到 ρ 不受一起或独立缩放 wx 或 wy 的影响，CCA 可以重新表述为

可以用拉格朗日乘子法求解。两个拉格朗日乘子 λx 和 λy 相等，即 λx = λy = λ。如果Cyy是可逆的，则wy可由wy = 1/2 Cyy−1Cyxwx和Cxy(Cyy)−1Cyxwx = λ2Cxxwx获得。因此，wx 可以通过求解本征问题来获得。对于不同的特征值（从大到小），通过连续的过程得到特征向量。

上述典型相关问题可以转化为距离最小化问题。为了便于推导，将典型相关性的连续表述替换为典型相关性的同时表述。假设投影的数量为p，矩阵Wx和Wy分别表示(wx1，wx2，...，wxp)和(wy1，wy2，...，wyp)。同时识别所有 w 的公式可以写成具有 p 个迭代步骤的优化问题：

优化问题 (27) 的矩阵公式为

其中 I 是大小为 p × p 的单位矩阵。最大化方程的目标函数 (28) 可以变换为等价形式：

它在许多工作中被广泛使用[35]，[74]，[102]。

KCCA 使用“核技巧”来最大化两个非线性投影变量之间的相关性。类似于等式 (26) 式中，KCCA 的优化问题表述如下：

与通过求解协方差矩阵的特征分解来工作的线性 CCA 相比，KCCA 解决了以下特征问题：

2) CCA Based Multi-View Clustering 基于CCA的多视图聚类：

由于高维空间中的聚类分析很困难，Chaudhuri 等人[10]首先通过CCA将数据投影到低维空间，然后在投影的低维空间中对样本进行聚类。在给定簇标签的情况下多个视图不相关的假设下，它显示了保证算法成功所需的较弱的分离条件。Blaschko 等人[24]将数据投影到通过 KCCA 在不同视图中获得的最大方向，并应用 k 均值对投影样本进行聚类。

对于具有某些类标签的成对视图的情况，CCA 仍然可以应用而忽略类标签，但是，性能可能会很低。为了利用类标签信息，Rasiwasia 等人[11]提出了两种CCA解决方案：mean-CCA 和 cluster-CCA 。

考虑两个数据集，每个数据集都分为 K 个不同但对应的类或簇。给定 Sx = {x1, x2, · · · , xK } 和 Sy = {y1, y2, · · · , yK }，其中 xk = {x1k, x2k, · · · , x|xk|k} 和 yk = {y1k, y2k, · · · , y|yk|k} 分别是第一和第二视图的第k个簇中的数据点。

第一个解决方案是在两个视图中的平均聚类向量之间建立对应关系。给定聚类均值 mxk = 1/|xk| Σ|xk| i=1 xik 且 myk = 1/|yk| Σ|yk| i=1 yik ，mean-CCA 公式为

其中，Vxy = 1/K ΣK k=1 mxkmyk T，Vxx = 1/K ΣK k=1 mxkmxk T，Vyy = 1/K ΣK k=1 mykmyk T。

第二种解决方案是在数据集的两个视图中的给定簇中的所有数据点的对之间建立一一对应关系，然后使用标准 CCA 来学习投影。

对于至少具有一个完整视图的多视图数据（该视图的功能适用于所有数据点），Anusua 等人 [103]借鉴了拉普拉斯正则化的思想来完成不完全核矩阵，然后应用KCCA进行多视图聚类。

在另一种多视图聚类方法中，在中间步骤中获得多个模式矩阵A(v) ∈ RN×Kv , v = 1, 2, · · · , K，每个对应于一个视图，然后一致的模式矩阵应该学习尽可能地近似每个视图的模式矩阵。然而，由于无监督的特性，模式矩阵通常不能直接比较。使用 CCA 公式 Eq. (29)，龙等人[39]首先投影一个视图的模式矩阵，然后与另一个视图的模式矩阵进行比较。

不能比较时，可以采用这种做法

同样的想法可以用来解决不完整视图问题（即没有完整视图）。例如，如果只有两个视图，[35]、[74]中的方法将数据拆分为具有两个视图的数据部分和仅具有一个视图的数据部分，然后投影每个视图的数据矩阵，使得接近最终的指标矩阵。多视图信息通过与两个视图的投影数据相对应的公共指示矩阵连接。王等人 [104]提供了一种使用极限学习机的多视图聚类方法，将归一化特征空间映射到更高维的特征空间。

F、讨论

多视角聚类

生成聚类 识别聚类

共享相似结构 D.直接结合 E.投影后结合

A.公共特征向量矩阵 B.公共系数矩阵 C.公共指标矩阵

在图1中，我们给出了多视图聚类方法的分类，这也是本次调查的组织方式。现在，我们对图1中显示的这些方法进行一些讨论。

对于多视图生成聚类，有两个优点：第一，它可以自然地处理缺失值；其次，某些凸模型可以获得全局解。

然而，它也有两个缺点：首先，它基于一些可能是错误的用户假设，从而导致聚类结果不准确；其次，它很耗时，因为它引入了一些模型参数，并且需要对凸模型运行不同的执行。

对于多视图判别聚类，三类相似结构共享方法很好地利用了多视图共识信息，但在某些情况下相似结构可能过于严格。

常见的特征向量矩阵共享方法是基于谱聚类的，适用于任何形状的簇。

公共系数矩阵共享方法主要包括子空间聚类，该方法广泛应用于计算机视觉领域。

常用的指标矩阵共享方法主要有k均值法和非负矩阵分解法，因而具有广泛的应用前景。

基于直接组合的方法可以自适应地调整每个视图的权重，这在某些视图质量较低时是需要的。

投影后组合适用于不同视图在原始空间中无法直接比较的场景。

很难说哪一种更好，这取决于具体的应用。

在图1中，我们可以发现，对于第III-A、III-B、III-C小节中介绍的三类多视图聚类方法，实际上，一个共同的属性是这些方法通过在多个视图之间共享相似的结构来组合多个视图。还有一些方法共享其他类似的结构来执行多视图聚类。通过共享在多个数据矩阵的奇异值分解中得到的跨视图的指示向量，Sun 等人 [13]、[105]、[106]将双聚类[107]方法扩展到多视图设置。王等人 [47]选择Jaccard相似度来衡量跨视图聚类一致性，同时考虑视图内聚类质量来对多视图数据进行聚类。

除了这些分类方法之外，还有一些其他的多视图聚类方法。与利用多视图数据的共识信息不同，Cao等人[108]利用希尔伯特施密特独立准则作为多样性项来探索多视图信息的互补性。它减少多视图信息的冗余，提高聚类性能。

基于每个视图中聚类之间“最小化分歧”的想法，De Sa [12] 提出了一种双视图谱聚类，可创建视图的二分图。

周等人[9]在每个视图的相似性图上定义了马尔可夫链的混合，并将谱聚类推广到多个视图。在[29]中，从每个单一视图构造一个转移概率矩阵，并且所有这些转移概率矩阵用于恢复共享的低秩转移概率矩阵，作为标准马尔可夫链聚类方法的关键输入。

通过融合不同视图的相似性数据，Lange 等人[20]提出了非负矩阵分解问题，并采用基于熵的机制来控制多视图数据的权重。

刘等人 [48]选择张量来表示多视图数据，然后通过张量方法进行聚类分析。

“IV. RELATIONSHIPS TO RELATED TOPICS” 四．与相关主题的关系

正如我们之前提到的，MVC 是一种利用多视图特征信息进行聚类分析的学习范式。这是机器学习中的一项基本任务，因此可用于各种后续分析。

在机器学习和数据挖掘领域，存在着几个密切相关的学习主题，例如多视图表示学习、集成聚类、多任务聚类、多视图监督和半监督学习。下面我们将详细阐述MVC与其他几个主题之间的关系。

多视图表示 Multi-view representation [109]是从多视图数据中学习更全面或更有意义的表示的问题。根据[110]，表示学习 representation learning（也称为特征工程 feature engineering）是一种利用人类聪明才智和先验知识为最终目标提取一些有用但相去甚远的特征表示的方法。表示学习也是无监督的，这与聚类相同，因为它们不使用标签信息。多视图表示可以被认为是比多视图聚类更基本的任务，因为多视图表示可以用于更广泛的目的，例如分类或聚类等。然而，基于多视图表示的聚类分析可能并不理想，因为多视图表示的创建不知道聚类的最终目标。在一篇存档的调查文章[109]中，多视图表示方法主要分为两类：浅层方法 the shallow methods 和深层方法 the deep methods。浅层方法主要基于CCA，这可能对应我们的Ⅲ-E 小节。对于深层方法，存在大量关于多视图表示的工作[111]、[15]、[112]、[113]、[14]、[114]、[115]。然而，对于多视图深度聚类，只有少数，包括[116]、[17]。如上所述，先多视图表示然后聚类的顺序方式是执行多视图聚类的自然方式，但由于两个步骤之间的差距，最终的性能通常不好。因此，如何将聚类和多视图表示学习集成到一个同步过程中是迄今为止一个有趣的方向，特别是对于深度多视图表示。

集成聚类 Ensemble clustering [117]（也称为共识聚类或聚类聚合consensus clustering or aggregation of clustering）是协调来自不同来源的同一数据集或同一聚类方法的不同运行的聚类信息，以找到在某种意义上比集成中的任何其他聚类都更适合的单一共识聚类。如果将集成聚类应用于多视图数据的聚类，它就成为多视图聚类方法的一种。因此，所有的集成聚类技术，例如[118]、[119]、[120]、[121]、[49]都可以应用于MVC。例如，[32]、[122]是两种多视图集成聚类方法。

多任务聚类 Multi-task clustering 旨在提高无监督聚类任务的性能，例如[123]、[124]、[125]、[126]、[127]。如果每个任务对应于同一样本的特定视图中的聚类，则将获得多个聚类结果，然后可以采用集成聚类方法来融合这些聚类结果。因此，多任务聚类可能与集成聚类相结合，可以实现多视图聚类。此外，多任务聚类和多视图聚类可以同时进行，以提高聚类性能[37]，[50]。

与多视图聚类不同，多视图监督学习 multi-view supervised learning [3]使用标记数据来学习分类器（或其他推理模型），而多视图半监督学习 multi-view semi-supervised learning [2]、[3]可以使用标记数据来学习分类器和未标记的数据。它们之间的共同点在于组合多种视图的方式。许多广泛认可的在监督或半监督环境中组合视图的技术，例如协同训练[66]、[128]、协同正则化[129]、[5]、边缘一致性margin consistency[130]、[131]可以如果存在估计初始标签的机制，则有助于多视图聚类。

“V. APPLICATIONS” 五、应用

多视图聚类已成功应用于计算机视觉、自然语言处理、社交多媒体、生物信息学和健康信息学等各种应用。

“A. Computer Vision” A. 计算机视觉

多视图聚类已广泛应用于图像分类[72]、[73]、[80]、[108]、[30]、[119]、[132]和运动分割任务[78]、[25]。

通常，在聚类之前可以从图像中提取几种特征类型，例如 CENTRIST [133]、ColorMoment [134]、HOG [135]、LBP [136] 和 SIFT [137]（参见图 2 [80]）分析。

尹等人 [72]提出了一种用于多视图图像聚类的成对稀疏子空间表示，它利用先验信息并最大化不同视图表示之间的相关性。

王等人 [73]以迭代方式强制视图间一致性，以对图像执行多视图光谱聚类。

高等人[80]假设不同视图有一个共同的低维子空间表示，以达到计算机视觉应用中多视图聚类的目标。

曹等人[108]采用希尔伯特施密特独立准则 Hilbert Schmidt Independence Criterion 作为多样性术语来利用不同视图的互补信息，并在图像和视频人脸聚类任务上表现良好。

金等人[30]利用CCA对大规模带注释的图像集合执行多视图图像聚类。

Ozay et al. [119]使用共识聚类来融合图像分割。M ́endez et al. [132]采用集成方式对MRI图像分割进行多视图聚类。[78]采用非负矩阵分解来执行运动分割的多视图聚类。 Djelouah et al. [25]通过在空间和时间上传播分割一致性信息来解决运动分割问题。

“B. Natural Language Processing” B. 自然语言处理

在自然语言处理中，可以获得多种语言的文本文档。很自然地使用多视图聚类来进行文档分类[6]、[19]、[79]、[80]、[138]、[139]，每种语言作为一个视图。

Kumar 等人采用协同训练和协同规范化的思想， [6]、[19]分别提出了协同训练多视图聚类和协同正则化多视图聚类。多语言数据上的性能比较证明了这两种方法相对于单视图聚类的优越性。

刘等人 [79] 将非负矩阵分解扩展到多视图设置，以对多语言文档进行聚类。

金等人 [138]获得每个视图的聚类结果，然后通过投票构建一致的数据分组。

江等人 [139]提出了一种协作 PLSA 方法，该方法结合了不同视图中的各个 PLSA 模型，并导入正则化器以强制不同视图中的聚类结果一致。

Hussain [140]利用集成方式对文档进行多视图聚类。

“C. Social Multimedia” C. 社交多媒体

当前，随着社交多媒体的快速发展，如何充分利用大量的社交多媒体数据是一个具有挑战性的问题，特别是将它们与“社交事件检测”等“现实世界概念”相匹配。

图 3 显示了两个这样的事件：一场音乐会和一场 NBA 比赛。那里显示的图片仅形成一个视图，而其他纹理特征（例如标签和标题）则形成另一视图。这样的社交事件检测问题是典型的多视图聚类问题。Petkos et al. [141]采用多视图谱聚类方法来检测社交事件，并另外利用一些已知的监督信号（已知的聚类标签）。Samangooei et al. [142]在构造相似度矩阵之前首先执行特征选择，并对融合的相似度矩阵应用基于密度的聚类。Petkos et al. [143]提出了一种基于图的多视图聚类来对来自社交多媒体的数据进行聚类。多视图聚类还被应用于对多媒体集合[22]和新闻报道[144]进行分组。

“D. Bioinformatics and Health Informatics” 生物信息学和健康信息学

为了识别物质依赖风险背后的遗传变异，Sun 等人 [13]、[105]、[106]设计了三种多视图共聚类方法来细化诊断分类，以更好地为遗传关联分析提供信息。曹等人[145]扩展了[13]中的方法来处理可能出现在数据的每个视图中的缺失值，并使用该方法来分析海洛因治疗结果。

海洛因依赖患者数据的三视图如图 4 所示。 [45]、[146]设计了一种多内核组合来融合不同的信息视图，并在疾病数据集上表现出卓越的性能。在[147]中，提出了基于格拉斯曼流形的多视图聚类来处理复杂疾病的基因检测。

“VI. OPEN PROBLEMS” 六．未解决的问题

我们已经发现了当前 MVC 文献中尚未充分探讨的几个问题。我们在本节中讨论这些问题。

“A. Large Scale Problem (size and dimension)” 大规模问题（大小和维度）

现代生活中，每天都会产生大量的数据。例如，Facebook 每分钟分享数百万条帖子，其中包括多种数据形式（视图）：视频、图像和文本。同时，大量新闻以不同语言报道，也可以认为是多视图数据，每种语言为一个视图。然而，现有的多视图聚类方法大多数只能处理小数据集。将这些方法扩展到大规模应用非常重要。例如，由于图构建和特征分解的计算成本高昂，现有的基于多视图谱聚类的方法很难在海量样本的数据集上工作。尽管之前的一些工作，如[52]、[148]、[149]、[150]试图加速谱聚类方法以适应大数据，但将它们有效地扩展到多视图设置是很有趣的。

另一种大数据具有高维度。例如，在生物信息学中，每个人都有数百万个遗传变异作为遗传特征，与问题维度相比，样本数量很少。在临床分析中使用遗传特征和临床表型的另一种观点，通常会形成多视图分析问题。由于过拟合问题，如何处理这样的聚类问题是很困难的。尽管特征选择[151]、[152]或像PCA这样的特征降维通常用于在单视图设置中缓解这个问题，但到目前为止还没有令人信服的方法，特别是深度学习由于以下特性而无法应对：尺寸小，特征尺寸高。它可能会想起新的理论来解决这个问题。

“B. Incomplete Views or Missing Value” B. 不完整的视图或缺失值

多视图聚类已成功应用于许多应用程序，如第五节所示。然而，背后隐藏着一个潜在的问题：如果一个或多个视图不完整怎么办？这在实际应用中很常见。例如，在多语言文档中，许多文档可能只有一种或两种语言版本；在社交多媒体中，某些样本可能会由于传感器故障而错过视觉或音频信息；在健康信息学中，一些患者可能没有进行某些实验室测试，从而导致视图缺失或值缺失。一些数据条目可能会随机丢失，而另一些数据条目可能是非随机的。

简单地用零或平均值替换缺失条目[153]是处理缺失值问题的常用方法，多重插补[154]也是统计领域的流行方法。缺失的条目可以由最近流行的生成对抗网络生成[155]。然而，如果不考虑缺失数据中随机效应和非随机效应的差异，聚类性能并不理想[145]。

到目前为止，已经有一些多视图工作[23]，[35]，[36]，[43]，[74]，[83]，[85]，[103]试图解决不完整视图问题。

[83]、[85]中的两种方法引入了权重矩阵 Mi,j 来指示第 i 个实例是否出现在第 j 个视图中。

对于双视图情况，[35]中的方法重新组织多视图数据以包括三部分：具有两个视图的样本、仅具有视图1的样本和仅具有视图2的样本，然后对它们进行分析以处理丢失的条目。

假设至少有一个完整的视图，Trivedi 等人[103]使用图拉普拉斯算子基于从完整视图计算出的核矩阵来完成具有缺失值的核矩阵。 Shao [43]借用了同样的想法来处理多视图设置。值得注意的是，所有这些方法都处理不完整的视图或具有某些约束的缺失值，它们并不是旨在处理任何视图中任意缺失值的情况。换句话说，这种情况是所有视图都有缺失值，并且样本只是缺少视图中的一些特征。

显然，上述方法具有很大的局限性，不能充分利用可用的多视图不完整信息。此外，所有现有方法都没有考虑随机和非随机缺失模式之间的差异。因此，如何利用混合类型的数据进行多视图分析是值得探讨的。

“C. Local Minima” C. 局部最小值

对于基于k-means的多视图聚类方法，初始聚类非常重要，不同的初始化可能会导致不同的聚类结果。在 MVC 甚至单视图聚类设置中有效选择初始聚类仍然具有挑战性。

大多数基于 NMF 的方法依赖于非凸优化公式，因此容易出现局部最优问题，特别是当存在缺失值和异常值时。自定进度学习Self-paced learning [27] 是一种可能的解决方案，Xu 等人 [34]将其应用于多视图聚类以缓解局部最小值问题。

生成凸聚类方法 The generative convex clustering method [56]是一种避免局部最小值问题的有趣方法。在[60]中，提出了[56]中方法的多视图版本，并显示出良好的性能。这种生成方法可能是另一个很好的解决方案。

“D. Deep Learning” D、深度学习

近年来，深度学习在语音识别、图像分割、目标检测等许多应用中表现出了出色的性能。然而，关于聚类的深度学习工作还很少，更不用说多视图聚类了。深度学习范式中的常见方法是使用深度模型学习良好的多视图数据表示，然后基于所得数据表示应用常规聚类方法对样本进行聚类。

[18]、[156]、[157]中的工作借鉴了监督深度学习思想来进行监督聚类。事实上，它们可以被认为是在进行半监督学习。到目前为止，只有几个真正的深度聚类工作[116]，[17]。田等人[116]提出了一种基于谱聚类的深度聚类算法，但用深度自动编码器代替了特征值分解。谢等人[17]提出了一种使用深度神经网络的聚类方法，它可以同时学习表示和执行聚类。现在，将这些单视图深度聚类方法扩展到多视图设置或设计多视图深度聚类方法是有前途的未来方向。

“E. Mixed Data Types” E. 混合数据类型

多视图数据不一定只包含数字或分类特征。它们还可以具有其他类型，例如符号型和序数型等。这些不同的类型可以同时出现在同一视图中，或出现在不同视图中。如何整合不同类型的数据进行多视图聚类是值得仔细研究的。将它们全部转换为分类类型是一个简单的解决方案。然而，在这样的处理过程中，很多信息将会丢失。例如，忽略属于同一类别的连续值的差异。在多视图聚类设置中充分利用混合数据类型中的信息是值得探索的。

“F. Multiple Solutions” F. 多种解决方案

大多数现有的多视图聚类，甚至单视图聚类算法仅输出单个聚类解决方案。然而，在现实应用中，数据通常可以通过多种不同的方式进行分组，并且从不同的角度来看，所有这些解决方案都是合理且有趣的。例如，根据水果类型或颜色对苹果、香蕉和葡萄进行分组都是合理的。到目前为止，据我们所知，沿着这个方向只有两部作品[44]、[16]。崔等人 [44]提出通过将数据投影到与当前解正交的空间来划分多视图数据，从而获得多个非冗余解。在另一项工作[16]中，采用希尔伯特-施密特独立准则来衡量不同视图之间的依赖性，然后在每个视图中找到一个聚类解决方案。能够产生多种解决方案的多视图聚类算法在未来应该会引起更多的关注。

“VII. CONCLUSION” 七．结论

在本文中，我们回顾了多视图聚类方法的两种主要类型：生成方法和判别方法。由于判别方法种类繁多，根据它们整合视图的方式，我们将它们分为五个主要类，其中前三个有一个共同点：跨视图共享某些结构，第四个包含视图的直接组合，第五个包括投影后的视图组合。至于生成方法，我们可以发现它们的发展远远不如判别方法。为了更好地理解多视图聚类，我们阐述了MVC和几种密切相关的学习方法之间的关系。我们还介绍了 MVC 的几个实际应用，并指出了一些有趣且具有挑战性的未来方向。