入门：“A Survey on Multi-view Learning” 辅助学习（上）

最新推荐文章于 2023-09-13 17:10:32 发布

KennyWu529

最新推荐文章于 2023-09-13 17:10:32 发布

阅读量210

点赞数 1

文章标签：机器学习

本文链接：https://blog.csdn.net/KennyWu529/article/details/132766550

版权

写在前面：

不知道是由于作者电脑原因还是csdn的原因，在试图一次性上传这篇论文时卡爆了，事实上即便分三次也很卡，简单的说，本篇论文的辅助阅读分三次上传：

上篇是这篇论文的前四章之前

中篇是5-7章，也是个人认为比较重要的部分

下篇是后三章+总结

希望查看的各位大佬按需选择，如果有出错之处也欢迎大家指正与讨论，写这个辅助学习一个是记录一下自己的学习过程，另一个是希望能帮到读论文的你，本文仅供参考，还是看论文原文最为清晰。

Abstract 摘要 近年来，人们提出了许多考虑不同视图多样性的多视图数据学习方法。这些视图可以从多个源或不同的特征子集获得。例如，可以通过从多个来源获得的信息通过面部、指纹、签名或虹膜来识别一个人，而可以通过其颜色或纹理特征来表示图像，这些特征可以被视为图像的不同特征子集。

为了整理和突出各种多视图学习方法之间的异同，我们回顾了不同领域中一些具有代表性的多视图学习算法，并将它们分为三组：

1）协同训练，2）多核学习，3）子空间学习。

值得注意的是，协同训练风格的算法交替训练，以最大限度地提高两个不同数据视图的相互一致性；多个核学习算法利用自然地对应于不同视图的核，并线性或非线性地组合核以提高学习性能；子空间学习算法旨在通过假设输入视图是从该潜在子空间生成的来获得由多个视图共享的潜在子空间。尽管整合多视图来提高学习绩效的方法存在显着差异，但它们主要利用共识原则或互补原则来确保多视图学习的成功。由于访问多个视图是多视图学习的基础，因此除了研究从多个视图学习模型之外，研究如何构造多个视图以及如何评估这些视图也很有价值。总的来说，通过探索不同视图的一致性和互补性，多视图学习比单视图学习更有效、更有前景，并且具有更好的泛化能力。

“Keywords 关键词： Multi-view Learning, Survey, Machine Learning” 多视图学习、调查、机器学习

“1. introduction” 一、简介

在视频监控、社会计算和环境科学中的大多数科学数据分析问题中，数据是从不同领域收集的或从不同特征提取器获得的，并且表现出异构属性，因为每个数据示例的变量可以自然地划分为组。每个变量组被称为特定视图，并且特定问题的多个视图可以采取不同的形式，例如 a) 颜色描述符、局部二进制模式、局部形状描述符、慢速特征和由多个摄像机捕获的时空上下文，用于稀疏摄像机网络中的人员重新识别和全局活动理解，以及 b) 文档中的单词、描述文档的信息（例如标题）、作者和期刊）以及科学文献管理的同被引网络图（见图 1）。

传统的机器学习算法，例如支持向量机、判别分析、核机和谱聚类，将所有多个视图连接成一个视图以适应学习设置。然而，这种串联在训练样本较小的情况下会导致过度拟合，并且没有物理意义，因为每个视图都有特定的统计属性。与单视图学习相比，多视图学习作为一种新范式引入了一个函数来对特定视图进行建模，并联合优化所有函数以利用相同输入数据的冗余视图并提高学习性能。因此，多视图学习受到越来越多的关注，现有算法可以分为三类：1）协同训练，2）多核学习，3）子空间学习。

协同训练（Blum and Mitchell，1998）是最早的多视图学习方案之一。它交替训练，以最大化未标记数据的两个不同视图的相互一致性。此后开发了许多变体。Nigam 和 Ghani (2000) 通过为未标记数据分配可变的概率标签来推广期望最大化 (EM)。穆斯莱亚等人 (2002a,2003,2006)将主动学习与协同训练相结合，提出了鲁棒的半监督学习算法。于等人 (2007, 2011) 开发了用于协同训练的贝叶斯无向图形模型和用于高斯过程分类器的新型协同训练内核。 Wang 和 Zhou（2010）将协同训练视为两种视图上的组合标签传播，并将基于图和分歧的半监督学习统一到一个框架中。辛德瓦尼等人（2005）构建了一个依赖于数据的“共同正则化”规范。由此产生的与单个 RKHS 相关的再现内核简化了理论分析并扩展了共正则化的算法范围。 Bickel 和 Scheffer (2004) 以及 Kumar 等人 (2010, 2011) 先进的数据聚类协同训练，并为多视图数据设计了有效的算法。协同训练算法的成功主要依赖于三个假设:（a）充分性 - 每个视图都足以自行分类（b）兼容性 - 两个视图的目标函数以高概率预测具有相同特征的共现特征的相同标签。以及（c）条件独立——给定标签的视图是条件独立的。条件独立性假设很关键，但在实践中它通常太强而无法满足，因此考虑了几种较弱的替代方案（Abney，2002；Balcan 等，2004；Wang 和 Zhou，2007）。

多核学习（MKL）最初是为了控制可能的核矩阵的搜索空间容量以实现良好的泛化而开发的，但已广泛应用于涉及多视图数据的问题。这是因为 MKL 中的内核自然地对应于不同的视图，并且线性或非线性地组合内核可以提高学习性能。兰克里特等人(2002, 2004) 将 MKL 表述为半定规划问题。巴赫等人(2004)将MKL视为二阶锥规划问题，并开发了一种SMO算法来有效地获得最优解。索南伯格等人(2006a,b) 开发了一种高效的半无限线性程序，并使 MKL 适用于大规模问题。拉科托马蒙吉等人(2007, 2008) 通过探索自适应 2-范数正则化公式提出了简单的 MKL。萨弗兰斯基等人（2008、2010）；徐等人(2010) 以及 Subrahmanya 和 Shin (2010) 构建了 MKL 和群-LASSO 之间的联系来建模群结构。获得了许多泛化界限，从理论上保证了 MKL 的性能。兰克里特等人(2004) 表明，给定 k 个基核，估计误差受 O(√ k/γ2n ) 限制，其中 γ 是学习分类器的余量。 Ying 和 Campbell (2009) 使用一组候选核的度量熵积分和伪维数来估计经验 Rademacher 混沌复杂度。对于具有 l1 约束的 k 个基核的凸组合族，泛化界限对 k 具有对数依赖性。假设不同的视图不相关，Kloft 和 Blanchard (2011) 通过 lp 范数 MKL 的局部 Rademacher 复杂度得出了更严格的上限。所引用的调查（G ̈ onen 和 Alpaydin，2011）被认为包含了提案中省略的所有相关参考文献。

基于子空间学习的方法旨在通过假设输入视图是从该潜在子空间生成的来获得由多个视图共享的潜在子空间。潜在子空间的维数低于任何输入视图的维数，因此子空间学习可以有效减少“维数灾难”。给定这个子空间，就可以直接执行后续任务，例如分类和聚类。典型相关分析（CCA）（Hotelling，1936）和核典型相关分析（KCCA）（Akaho，2006）通过相互最大化投影到这些基向量上的相关性来探索两组变量的基向量，因此很容易将它们应用于双视图数据以选择共享的潜在子空间。它们已被进一步开发以进行多视图聚类（Chaudhuri 等人，2009）和回归（Kakade 和 Foster，2007）。迪特等人（2008）推广了费舍尔的判别分析来探索多视图数据跨越的潜在子空间。与 CCA 相比，这种概括考虑了类标签信息。 Quadrianto 和 Lampert (2011) 以及 Zhai 等人(2012) 通过构建从多视图数据到共享子空间的嵌入投影来研究多视图度量学习，其中欧几里得距离在不同视图中都是有意义的。潜在子空间对于从观察视图推断另一个视图很有价值。肖恩等人。 Sigal 等人 (2006) 利用了高斯过程（2009）最大化了互信息，Chen 等人(2010)使用马尔可夫网络通过潜在子空间构建两个视图之间的连接。萨尔兹曼等人（2010）和贾等人（2010）提出寻找一个潜在子空间，其中信息被正确地分解为跨不同视图的共享部分和私有部分。 KCCA 研究了一致性和有限样本分析（Fukumizu 等人，2007 年；Hardoon 和 Shawe-Taylor，2009 年；Cai 和 Sun，2011 年）。

多视图数据：a) 网页文档可以通过其 url 和页面上的文字来表示，b) 网页图像可以通过与视觉信息分开的周围文本来描述，c) 从不同的位置获取的 3D 对象的图像视点，d) 视频剪辑是音频信号和视觉帧的组合，e) 多语言文档每种语言都有一个视图。

在回顾多视图学习的文献时，我们发现它与机器学习中的其他主题紧密相关，例如主动学习、集成学习和领域适应。

主动学习“Active learning” （Settles，2009；Seung 等人，1992）有时称为查询学习，旨在最大限度地减少学习感兴趣的概念所需的标记数据量。穆斯莱亚等人 (2000) 引入了联合测试，这是一种以多种视角进行主动学习的新颖方法。他们将联合测试与co-EM相结合，衍生出一种新颖的方法co-EMT（Muslea et al., 2002a），该方法使用co-EM生成准确的分类器，并选择信息最丰富的未标记示例进行联合测试进行标记。此外，考虑到强弱视图，

一般来说，强视图是指那些包含了数据本质信息的视图，比如图像、文本、音频等。弱视图是指那些只包含了数据的部分信息或附加信息的视图，比如标签、元数据、注释等。2强弱视图之间的区别在于它们对数据的表达能力和重要性的不同。强视图通常能够更好地反映数据的分布和结构，而弱视图则可能提供一些有用的辅助信息或先验知识。3

Muslea 等人（2003，2006）通过假设来自强分类器的标签不同且与弱分类器的预测不一致的集中示例来进行高级协同测试，从而为标记提供更多信息。

集成学习“ensemble learning” 的思想“(Dietterichl, 2002; Lappalainen and Miskin, 2000)” 是采用多个学习器并结合他们的预测。 bagging 算法（Breiman，1996）使用不同的训练数据集来构建集合的每个成员，并通过统一平均或对类标签进行投票进行预测。与协同训练不同，协同训练通过不同视图的训练来确保学习模型的多样性，而bagging需要不同的训练数据集来生成具有不同判断的模型。 AdaBoost（Freund and Schi∈ire，1996）是另一种著名的集成学习算法，其主要思想是训练一个新模型来补偿早期模型所犯的错误。在每一轮中，错误分类的示例都会被识别出来，并且它们的重点将在下一个训练过程的新训练集中得到增加。协同训练和 AdaBoost 都依赖于不断增长的基于数据重采样训练的分类器集合；然而，AdaBoost 试图找到带有错误标记的示例，而协同训练则试图利用学习者的一致性。协同训练是信心驱动的，而 AdaBoost 是错误驱动的。

集成学习+绝对多数投票法(majority voting)的细节

集成学习：Random Forest & Extra Trees - 知乎 (zhihu.com)

机器学习入门笔记（六）：集成学习_逐梦er的博客-CSDN博客

域适应“Domain adaptation” 是指将在源域的数据上训练的预测模型适应到不同的目标域的问题，其中两个域中的数据分布不同。人们提出了许多域适应技术（Wii and Pal，2010；Wan et al.，2011）来解决跨语言文本分类问题，【其中源域包括从源语言翻译的文档，目标域包括原始语言目标语言的文档。而且，这些不同语言的文档可以看作是对原始文档的不同看法；因此，协同训练（Wan，2009）、多视图多数投票（Aii et al.，2010）和多视图协同分类（Aii and Goutte，2010）等方法被设计并成功应用于该问题。】

在这篇调查论文中，我们对多视图学习进行了全面的概述。本文的其余部分组织如下：我们首先在第 2 节中说明多视图学习算法的原理。在第 3 节中，介绍了构建多个视图的不同方法以及评估这些视图的方法。我们在第 4 节中提出了组合多个视图的不同方法，并在第 5、6 和 7 节中详细说明了不同类型的多视图学习算法。第 8 节介绍了多视图学习的应用，以及反映多视图学习性能的实验结果。多视图学习如第 9 节所示。最后，我们在第 10 节中总结本文。

“2. Principles for Multi-view Learning” 2. 多视角学习原理

对相同输入数据的冗余视图的需求是多视图和单视图学习算法之间的主要区别。由于这些多个视图，可以利用丰富的信息来执行学习任务。然而，如果学习方法无法适当地处理多个视图，这些视图甚至可能会降低多视图学习的性能。通过充分考虑多个视图之间的关系，已经提出了几种成功的多视图学习技术。我们分析了这些不同的算法，发现有两个重要原则确保它们的成功：共识和互补原则。

“2.1 Consensus Principle” 2.1 共识原则

共识原则旨在最大限度地达成多种不同视图的一致。假设可用数据集X有两个视图X1和X2。因此，示例 (xi, yi) 被视为 (xi1, xi2, yi)，其中 yi 是与示例关联的标签。达斯古普塔等人（2002）证明了两种视图的两种假设的共识与其错误率之间的联系。在一些温和的假设下，他们给出了不等式

根据不等式，我们得出结论，两个独立假设不一致的概率限制了任一假设的错误率。因此，通过最小化两个假设的不一致率，每个假设的错误率将最小化。

近年来，许多方法似乎都以这种或那种方式利用了这一共识原则，尽管在许多情况下贡献者并没有意识到他们的方法与这一共同的基本原则之间的关系。例如，协同训练算法交替训练，以最大化未标记数据的两个不同视图的相互一致性。通过最小化标记示例上的误差并最大化未标记示例上的一致性，协同训练算法最终在每个视图上实现一个准确的分类器。在共正则化算法中，共识原则可以由正则化项表示为

其中第一项强制对未标记示例的两种不同视图达成一致，第二项通过损失函数 V (·,·)评估标记示例的经验损失。

通过额外考虑假设的复杂性，我们将实现完整的目标函数，解决它将导致学习两个最优假设。 Farquhar 等人 (2005) 观察到，将内核典型相关分析（KCCA）应用于两个特征空间可以提高分类器的性能，他们提出了一种称为 SVM-2K 的监督学习算法，它将 KCCA 与 SVM 的思想结合起来。 SVM 可以被认为是将特征投影到一维空间，然后进行阈值化，之后 SVM-2K 在该一维空间上强制约束两个视图的一致性。形式上这个约束可以写成

其中 ηi 是使两种视图达成共识的变量，而 ε 是松弛变量。

在多视图嵌入中，我们同时对多个特征进行嵌入，同时考虑不同视图的一致性和互补性。例如，多视图光谱嵌入（Xia et al., 2010）首先为每个视图上的样本构建一个补丁，其中任意点及其 k 个最近邻点被迫在低维嵌入中具有相似的输出空间。经过这种局部共识优化，来自不同视图的所有补丁通过全局坐标对齐统一为一个整体。这可以看作是全局共识的优化。

“2.2 Complementary Principle” 2.2 互补原则

互补原则指出，在多视图设置中，数据的每个视图可能包含一些其他视图没有的知识；因此，可以采用多种视图来全面、准确地描述数据。在涉及多视图数据的机器学习问题中，可以利用多视图下的互补信息来利用互补原理来提高学习性能。

Nigam 和 Ghani (2000) 使用在一个视图上学习的分类器来标记未标记的数据，然后为在另一个视图上的分类器训练的下一次迭代准备这些新标记的示例。因此，在未标记的数据集上，两个视图上的模型彼此共享互补信息，从而提高了学习性能。 Wang 和 Zhou (2007) 研究了为什么协同训练式算法在没有冗余视图的情况下能够成功。他们使用同一基学习器的不同配置（可以看作另一种视图）以不同的方法描述数据，并表明当两个学习器之间的多样性大于错误量时，学习者可以通过协同训练风格的算法来提高。具有不同偏差的两个分类器会给一些样本贴上不同的标签。如果一个视图上的分类器 h1 标记的示例对于另一个视图上的分类器 h2 有用，则 h1 应该包含一些 h2 不知道的信息。因此，两个分类器将相互交换互补信息，并在互补原则下相互学习。随着协同训练过程的进行，两个分类器将变得越来越相似，直到性能无法进一步提高。

在多核学习中，不同的核可能对应于不同的相似性表示法。由于测量数据相似性的不同方法具有特定的优点，因此我们采用在互补原则下进行适当组合的学习方法，而不是试图确定哪个内核效果最好。因此，各种相似性符号将共同作用，以实现对数据的准确评估。此外，不同的内核还可以使用来自各种视图的输入，可能来自替代来源或方式。因此，通过考虑数据的各种视图下的互补信息并组合来自这些不同视图的多个核，可以获得相似性的综合测量。

多视图问题的一种传统解决方案是将来自不同视图的向量连接成一个新向量，然后直接对连接的向量应用单视图学习算法。然而，这种串联会导致小训练样本上的过度拟合，并且每个视图的特定统计属性被忽略。

对于许多在多个视图上具有长特征向量作为输入的应用程序，因此为这些视图构建共享的低维表示是合理的。在人体姿势推断中，图像特征和 3D 姿势可以被视为描述人体姿势的两个互补视图。已经设计了几种方法（Shon et al., 2006; Sigal et al., 2009）来通过构建由多个视图共享的潜在子空间来解决这一问题，其中不同的视图在该子空间中相互连接，整合视图不同视图背后互补的信息。推理时，给定一个视图上的新观察，可以找到相应的潜在嵌入，该潜在嵌入也与另一视图上的点相关。夏等人（2010）开发了一种新的光谱嵌入算法，即多视图光谱嵌入（MSE），它对多视图特征进行编码以实现物理有意义的嵌入。于等人(2012b) 提出了一种用于卡通人物检索的半监督多视图距离度量学习（SSM-DML）。由于可以提取各种低级特征来表示图像，因此每个特征空间都会给出数据相似性的一种度量，因此很难决定哪种度量最合适。通过考虑不同视图背后的互补信息，可以利用度量学习来构建共享的潜在子空间，以精确测量不同示例之间的差异。

互补原则和共识原则在多视图学习中都发挥着重要作用。例如，在协同训练风格算法中，Dasgupta 等人（2002）表明，通过分别最小化两种视图的两个假设的不一致率，可以最小化每个假设的错误率。另一方面，Wang 和 Zhou (2007) 认为协同训练算法成功的原因是两个学习器之间的多样性程度；换句话说，不同视图中的互补信息影响了协同训练算法的性能。在解决多视角学习问题时，要牢记共识和互补的原则，充分发挥多视角的优势。

“3. View Generation” 3.视图生成

多视图学习的首要任务是冗余视图的获取，这也是与单视图学习的一大区别。多视图生成不仅旨在获得不同属性的视图，

还涉及确保视图充分表示数据并满足学习所需的假设的问题。在本节中，我们将说明如何构建多个视图以及如何评估这些视图。

“3.1 View Construction” 3.1 视图构建

在实践中，经常可以从不同的角度来描述对象。一个经典的多视图示例是网络分类问题。通常，网络文档可以通过页面上出现的单词或指向该页面的链接的锚文本中包含的单词来描述。然而，在许多情况下，由于某些限制，不存在自然的多个视图，因此只能提供一个视图来表示数据。由于很难直接在这个单一视图上进行多视图学习，因此多视图学习的前期工作涉及从这个单一视图构建多个视图。

生成不同的视图对应于特征集划分，它概括了特征选择的任务。特征集划分不是提供单个代表性特征集，而是将原始特征集分解为多个不相交的子集来构造每个视图。从单视图转换为多视图的一个简单方法是将原始特征集随机拆分为不同的视图，并且确实有许多使用此技巧的多视图学习实验（Brefeld 等，2005；Bickel 和谢弗，2004 年；布雷菲尔德和谢弗，2004 年）。但是，不能保证使用此方法会获得满意的结果。因此，以符合多视图学习范式的方式对特征集进行子集化并不是一项简单的任务，并且取决于所选的学习器和数据域。

第一类：第一类包括通过随机方法从元数据构建多个视图的技术。

随机子空间方法 (RSM)（Ho，1998）作为随机采样算法的示例，结合了引导和聚合的优点。与装袋引导训练样本不同，RSM 在特征空间中执行引导。该方法依赖于自主的伪随机过程从给定的特征空间中选择少量维度。在每次传递中，通过在未选择的维度中为所有点赋予恒定值（零）来进行此选择并固定子空间。对于给定的 n 维特征空间，可以构造 2n 个这样的选择。所有子空间都可以被视为数据的不同视图。虽然大多数其他方法都受到维数灾难的困扰，但该方法利用了高维性。陶等人(2006)采用随机子空间方法对几个小特征集进行采样，以减少训练数据大小和特征向量长度之间的差异。基于采样的子空间，可以构造多个SVM，然后组合以获得更强大的分类器来解决过拟合问题。

Di 和 Crawford (2012) 对高光谱图像数据的视图生成进行了彻底的研究。考虑到多样性、兼容性和准确性等关键问题，提出了几种构建高光谱数据多视图的策略，如下所示。

1）聚类：这些方法涉及基于相似性度量的特征聚合，目的是促进视图之间的多样性。

2）随机选择：与特征空间装袋相结合，随机选择可以从光谱特征空间中进行更多的信息探索，并可以消除生成无信息或损坏视图的影响。

3) 均匀波段切片：在整个光谱范围内均匀划分数据，创建包含等间隔分隔的波段的视图，从而保证视图的充分性。

作者还提出，增加视图数量以增加多样性，或增加特征空间的随机性以避免视图不足或噪声，进一步提高性能。

第二类：第二类由将原始单视图特征重塑或分解为多个视图的算法组成

关于涉及文本文档的学习问题，Matsubara 等人(2005)提出了一种预处理方法，可以轻松构建多视图学习算法所需的不同视图。通过将术语识别为词袋并使用不同数量的单词来构成每个术语，可以获得一个文档针对不同视图的不同表示。这是构建文本文档的多个视图的简单而有效的方法，尽管它很难应用于其他领域。王等人 (2011) 开发了一种新技术，将单个视图的原始矢量表示重塑为多个矩阵表示。例如，向量 x = [a, b, c, d, e, f ]T 可以重塑为两个不同的矩阵：

重塑向量的不同方法会产生具有各种行和列尺寸的多个矩阵模式。这些矩阵可以被视为输入数据的多个独立或较弱相关的视图。与向量表示相比，利用矩阵表示可以节省所需的内存，通过结构中的新约束引入新的隐式信息，从而提高学习到的分类器的性能。

第三类：第三类由自动执行特征集划分的方法组成

陈等人 (2011) 提出了一种称为伪多视图协同训练 (PMC) 的新颖特征分解算法，可自动将单个视图数据集的特征划分为两个互斥的子集。

考虑线性分类器，给定权重向量 w，f (x) = wx + b，优化器可以写为

其中 w1 和 w2 分别是两个分类器的权重向量，L(w; L) 是数据集 L 上的对数损失。为了确保两个分类器在数据集的不同视图上进行训练，对于每个特征 i，至少两个分类器之一在第 i 维的权重必须为零。这个约束可以写成

在每次迭代中，解决上述优化问题将自动找到特征的最佳分割。

为了自动获取特征子集，Sun 等人(2011) 向遗传算法 (GA) 寻求帮助。 GA 中二进制位串中的每一位都与一个特征相关联。如果选择第i个特征，则第i位为1，否则该位为0。假设种群规模为n，则在每次迭代中，将选择最好的n个个体作为下一代。最终遗传群体中的每个个体都对应一个候选特征子集，可以将其视为数据的一个视图。

文献表明，几种核函数已被成功使用，例如线性核、多项式核和高斯核。由于不同种类的核函数对应不同的相似性表示法，因此不选择一种特定的核函数来描述数据以获得这些核函数的最优组合是合理的。这些不同种类的核函数可以看作是数据的不同视图，因此如何学习核组合的问题可以转化为多核学习。

上述视图构建方法可以分析并分为三类。第一类包括通过随机方法从元数据构建多个视图的技术。第二类由将原始单视图特征重塑或分解为多个视图的算法组成，例如上述矩阵表示或不同的核函数。第三类由自动执行特征集划分的方法组成，例如PMC（Chen et al., 2011）。最后一类算法与成熟的特征选择算法有一定的联系（Jain 和 Zongker，1997；Guyon 和 Elisseeff，2003）；然而，多视图特征选择和单视图特征选择之间存在显着差异。在多视图特征选择中，除了每个视图内的信息之外，还应该考虑多个视图之间的关系。

“3.2 View Evaluation” 3.2 视图评价

构造多个视图只是视图生成的任务之一；另一个重要的方面是评估这些视图并确保它们对于多视图学习算法的有效性。多视图学习文献中已经提出了几种方法，用于分析多个视图之间的关系或处理由于违反视图假设或视图中的噪声而导致的问题。

穆斯莱亚等人 (2002b)首先引入了一种视图验证算法，该算法预测视图是否足够兼容以解决多视图学习任务。该算法尝试以监督方式学习决策树，根据视图是否足够兼容多视图学习来区分学习任务。设计了一组特征来指示视图的不兼容程度，并且通过比较测试集上的单视图和多视图算法的准确性来自动生成每个实例的标签。

视图充分性的假设在实践中通常并不成立。例如，在视频概念检测任务中，一帧包含一架飞机，另一帧包含一只老鹰，但两帧可能具有相同的颜色直方图特征。因此，仅靠低级视觉特征很难充分表示概念。

Yan 和 Naphade (2005) 提出了半监督交叉特征学习（SCFL），以缓解某些视图本身不足以学习概念时的协同训练问题。当视图充分性假设失败时，应用协同训练的主要问题是与分类噪声相关的额外训练数据可能会破坏初始分类器。使用两个视图的初始分类器标记未标记的数据后，仅基于未标记的数据训练每个视图的两个单独的分类器以消除此问题。在验证数据 V 的帮助下，可以对所有四个分类器进行加权组合，以检测在不损害初始分类器性能的情况下可以从未标记数据中获得多少好处。如果来自未标记数据的预测噪声太大而无法使用，则可以简单地将在未标记数据上新学习的两个分类器的组合权重归零，然后我们退回到在标记数据上训练的初始分类器。

多视图学习算法的性能可能会受到视图中噪声的影响。克里斯图迪亚斯等人（2008）定义了视图不一致问题，指出每个视图的样本并不总是属于同一类，但有时由于噪声而属于额外的背景类。

为了检测和过滤视图不一致，条件视图熵 H(xi|xj) 被定义为在给定观察到的视图 xi 的情况下视图 xi 的不确定性的度量。？？？

当条件发生在背景而不是前景时，条件视图熵预计会更大。通过对条件视图熵进行阈值处理，可以在协同训练算法的每次迭代中丢弃视图不一致的样本，从而提高分类器的性能。

于等人 (2011) 提出了一种概率性的协同训练方法，称为贝叶斯协同训练，它可以处理每次视图的噪声。该算法对每个视图使用一个潜在变量 fj ，并使用一个共识潜在变量 fc 来对不同视图上的一致性进行建模。最后定义 ψ(fj, fc) 来表示第 j 个视图与共识函数之间的兼容性，可以写为 ψ(fj, fc) = exp(− ‖fj−fc‖2/2σj 2)。参数 {σj} 作为可靠性指标，控制第 j 个视图与共识潜变量之间的交互强度。较小的 σj 值对最终输出中的视图有很大影响，而较大的值允许模型忽略该视图中的观察结果。因此，贝叶斯协同训练模型可以处理每个视图的噪声，其中假定给定视图的每个样本都被相同量的噪声破坏。

克里斯图迪亚斯等人 (2009a) 将贝叶斯协同训练扩展到异方差情况，其中每个观测值都可能被不同的噪声水平破坏。假设潜在函数可以被任意高斯噪声破坏，使得

其中 Aj 是噪声协方差矩阵。当假设 i.i.d.噪声，噪声矩阵可以写为

其中 σ i,j 2是视图 j 中噪声破坏样本 i 的估计。j为视图，i为样本

因此，异方差贝叶斯协同训练模型可以通过每个视图的噪声协方差矩阵 Aj 来结合样本相关噪声建模。

在多核学习中，不同的核可以使用来自各种表示的输入，可能来自一系列模态或来源。这些表示可能具有对应于不同内核的对比相似性度量，并且可以被视为数据的不同视图。在这种情况下，组合内核是组合多个信息源的一种可能的方式；然而，在现实世界中，源可能会被不同的噪声破坏，因此当某些内核有噪声或不相关时，有必要在学习过程中优化内核权重。刘易斯等人(2006) 比较了未加权和加权核总和在基因功能分类任务中的性能。他们考虑了向系统添加额外的、有噪声的内核的情况。随着更多的噪声添加到系统中，未加权平均值的性能会恶化，但加权内核方法会学会降低噪声内核的权重，因此继续运行良好。

大多数多核学习算法是在每个视图核权重假设下的全局技术，因此这些方法无法应对复杂噪声过程的存在，例如异方差噪声或丢失数据。克里斯图迪亚斯等人 (2009b) 提出了一种贝叶斯局部方法，用于将不同的特征表示与高斯过程相结合，该过程可以学习每个视图的局部权重。令 X-- = [X1, · · · , XV ] 为具有 V 个视图的所有观测值的集合，令 Y = [y1, · · · , yN ]T 为标签集，并令 f = [f1, · · · , fN ]T 是一组潜在函数。先于潜在函数的高斯过程 (GP) 可以写为 p(f|X--) = N (0, K--)。如果使用高斯噪声模型，则得到 p(Y|f) = N (f, σ2i)。通过以非线性方式组合特征表示的协方差可以得到协方差函数；因此，使用具有共同协方差函数的标准 GP 方法进行分类。

Liu 和 Yuen（2011）引入了两种新的置信度度量，即视图间置信度和视图内置信度，来描述多视图学习中的视图充分性和视图依赖问题。考虑样本X与M个视图相关，观测数据分别表示为X1、····、XM；基于互信息定义，X的视图间置信度定义为

其中 I(Xi, Xj ) 测量 Xi 和 Xj 之间的互信息。

通过最大化视图间置信度，可以最小化总数据依赖性。此外，作者提出以半监督的方式迭代计算和最小化标记和未标记数据的总不一致性。因此视图充分性可以定义为

其中XiL和XiU分别是标记和未标记的数据集，Si是视图i的相似度矩阵，F衡量XiL和XiU之间的数据一致性。

视图之间的相关性是基于子空间的多视图学习方法的一个重要考虑因素。 Hotelling（1936）引入了典型相关分析（CCA）来描述两个视图之间的线性关系，其目的是计算变量的两个视图的低维共享嵌入，使得两个视图之间的变量之间的相关性在嵌入中最大化空间。由于新的子空间只是原始空间的线性系统，因此CCA只能用来描述线性关系。在高斯假设下，CCA 还可用于测试两个变量视图之间的随机独立性。 Akaho (2006) 研究了 CCA 与内核机的混合方法，称为内核规范相关分析 (KCCA)，以识别两个视图之间的非线性相关投影。形式上，对于两个视图 X ∈ Rd×n 和 Y ∈ Rk×n，CCA 计算两个投影向量 wx ∈ Rd 和 wy ∈ Rk，从而得到以下相关系数：

ρ被最大化。类似地，在 KCCA 中，我们将投影方向表示为 wx = Xα 和 wy = Yβ，其中 α 和 β 是大小为 N 的向量。无论采用CCA还是KCCA，都可以获得按降序排列的相关系数序列{ρ1，ρ2，····}。文献中的几种关联度量被构造为相关系数的函数，其中两个最常见的关联度量如下。一是最大相关性

另一个是

“4. View Combination” 4.视图组合

组合多个视图的一种传统方法是将所有多个视图连接成单个视图以适应单视图学习设置。然而，这种串联会导致小训练样本的过度拟合，并且没有物理意义，因为每个视图都有特定的统计属性。因此，与单视图学习算法相比，我们采用组合多个视图的先进方法来实现学习性能的提高。

图2：视图1【标签 --训练--> 假设1 --预测--> 【验证 --交换--> 假设1

视图2 数据】 --训练--> 假设2 --预测--> 数据】 --交换--> 假设2

协同训练风格的算法通常在每个视图上训练独立但相关的学习器，并且学习器的输出被迫要求在相同的验证点上相似，如图2所示，在共识原则下，每次迭代的目标是最大化验证集上两个学习者的一致性。当然，两个学习者对验证集的预测可能存在一些分歧；然而，这种分歧会传播回训练集，以帮助训练更准确的学习者，从而最大限度地减少下一次迭代中验证集上的分歧。

协同训练是半监督学习中的经典算法。在协同训练中，分类器根据每个视图进行训练，仅使用该视图中的特征。通过最大化两个分类器在标记数据集上的预测的一致性，以及最小化两个分类器在未标记数据集上的预测的不一致，分类器相互学习并达到最佳解决方案。这里，未标记的集被认为是验证集。在每次迭代中，一个视图上的学习器标记未标记的数据，然后将其添加到另一个学习器的训练池中；因此，两种视图背后的信息可以在该方案中交换。

协同正则化可以被视为协同训练算法的正则化版本。与协同训练不同，协同正则化算法使用等式 1

正式测量两个不同视图的一致性。通过求解相应的目标问题，可以获得两个最优分类器。

如果未提供验证集，例如在无监督学习设置中，则需要在每个视图上训练分类器并验证同一训练集上的视图组合。 Kumar 和 Daume III (2011) 将协同训练的思想应用到无监督学习环境中，提出了一种针对多视图数据的谱聚类算法。假设真正的底层聚类会将每个视图中的对应点分配到同一簇，该算法在各个图上求解谱聚类以获得每个视图中的判别特征向量 U1(U2)，然后使用 U1(U2) 和 U1(U2) 对点进行聚类使用此聚类分别修改视图 2(1) 中的图结构。该过程重复多次。与许多其他多视图聚类算法类似（Kumar et al., 2010, 2011），考虑到共识原则，这种环境中的多个视图通常在训练集上组合。

在多视图监督学习问题中，还采用隐式验证集来组合多个视图。例如，在Yu等人 (2011)提出的贝叶斯协同训练中，通过高斯过程构建了用于协同训练的贝叶斯无向图模型。引入潜在函数 fc 以确保每个示例的输出 y 与每个视图的潜在函数 fj 之间的条件独立性。因此，{fc} 可以看作是一个隐式验证集，它连接潜在空间中的多个视图。

与其选择单个核函数进行多核学习，不如使用一组并允许算法选择合适的核和核组合。由于不同的内核可能对应于各种相似性概念或来自不同表示（可能来自多个来源或模式）的输入，因此组合内核是集成多个信息源并找到更好的解决方案的一种可能方法，如图 3 所示。有多种组合方式，每种方式都有其自己的组合参数特征。这些方法可以分为两类：

“1. Linear combination methods” 1. 线性组合方法

有几种线性方法可以组合多个内核。这些方法有两个基本类别：

“• Direct summation kernel” • 直接求和内核

“• Weighted summation kernel” • 加权求和核

使用未加权的总和为所有内核提供相同的优先级，这可能并不理想；加权总和可能是更好的选择。在后一种情况下，此方法的版本在对内核权重 {dk}k=1M 施加限制的方式上有所不同。兰克里特等人(2002, 2004) 使用直接方法来优化无限制的核组合权重。组合核矩阵选自以下集合：

兰克里特等人 (2004) 通过从集合中选择组合核矩阵，将组合权重限制为非负值：

Thorsten Joachims 和 Shawe-Taylor (2001) 遵循 dk ≥ 0、ΣM k=1 dk = 1 的约束，并考虑核权重的凸组合。如果只允许使用二进制dk进行内核选择，则可以丢弃dk = 0的内核，仅使用dk = 1的内核。

徐等人 (2009b) 使用这个定义来执行特征选择。通常在整个输入空间上为内核分配相同的权重，这忽略了每个局部区域的数据分布。

G̈onen和Alpaydin(2008)提出根据数据分布为核函数分配不同的权重，并将局部组合核矩阵定义为

其中 dk(x) 是门函数，它选择特征空间作为输入 x 的函数。

“2. Nonlinear combination methods” 2. 非线性组合方法

基本内核的线性组合是有限的，因此通过以其他方式组合内核可以实现更丰富的表示。 Varma 和 Babu (2009) 尝试使用基核和其他产生正定核的组合的乘积来执行多核学习；例如，组合核的乘方和幂方式：

或者

Cortes 等人 (2009) 的另一项工作是一种基于核回归和核多项式组合的非线性核组合方法。他们建议按如下方式组合内核：

其中

考虑一种特殊情况：

其中

因此，该算法的目标是找到向量 μ = (μ1, · · ·, μM )T 。然而，实证结果并未显示出一致的性能改进，这引发了核函数的非线性组合是否必要或有效的问题。

图4：输入数据（视图） --> 潜在子空间x1,…,xM ---> 共享子空间x*

基于子空间学习的方法旨在通过假设输入视图是从该潜在子空间生成的，来获得由多个视图共享的潜在子空间，如图 4 所示。在单视图学习的文献中，主成分分析 (PCA) 是利用子空间获取单视图数据的历史悠久且最简单的技术。典型相关分析（CCA）可以看作是PCA的多视图版本，它已经成为对多视图数据进行子空间学习的通用工具。 CCA通过最大化子空间中两个视图之间的相关性，在每个视图上输出一个最优预测；然而，由于 CCA 构建的子空间是线性的，因此不可能直接将其应用于许多表现出非线性的现实世界数据集。因此，CCA 的内核变体，即 KCCA，可以被认为是关于首先将每个数据点映射到线性 CCA 运行的更高空间。 CCA和KCCA都以无监督的方式利用子空间，因此标签信息被忽略。

受 PCA 生成 CCA 的推动，多视图 Fisher 判别分析被发展来查找带有标签信息的信息预测。 Lawrence (2004)将高斯过程作为构建潜变量模型的工具，可以完成非线性降维的任务。陈等人（2010）开发了一个统计框架，该框架基于通用多视图潜在空间马尔可夫网络来学习由多个视图共享的预测子空间。 Quadrianto 和 Lampert (2011) 研究了跨媒体检索任务中的度量学习问题。

多视图数据的度量学习的目标是学习可以将原始多视图高维特征投影到共享特征空间中的度量，使得该空间中的欧氏距离不仅在单个视图内有意义，但也存在不同视图之间。由于通过不同方法构建的子空间通常具有比任何输入视图更低的维数，因此有效消除了“维数灾难”问题，并且给定子空间，可以直接进行后续的分类和聚类等任务。

在分析了上述各种结合多视图的方法后，我们总结它们的异同如下。

(a) 协同训练风格的算法通常在不同的视图上训练单独的学习器，然后强制这些学习器在视图之间保持一致。因此，这种方法可以被视为多种视图的后期组合，因为在训练基础学习器时，视图是独立考虑的。

(b) 多核学习算法在每个视图上计算单独的核，并与基于核的方法相结合。这种方法可以被认为是多个视图的中间组合，因为内核（视图）是在学习器训练之前或期间组合的。

KennyWu529

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫