文献阅读-Deep multi-view learning methods: A review

本文主要解释 __深度学习范围内的MVL__方法,并讨论 多视图与多模态 之间的关系。

概述

多视图学习 (MVL) 吸引了越来越多的关注,并通过利用多种特征或模态的互补信息取得了巨大的实际成功。
原文从以下两个角度全面回顾了深度 MVL:

  • 深度学习范围内的 MVL 方法
  • 传统方法的深度 MVL 扩展

在这里只解释深度学习范围内的,有兴趣的可以查看原文。

1-介绍

多视图基本上,多视图数据是指从不同模态、来源、空间和其他形式捕获的数据,但具有相似的高级语义。如图1所示,一个对象可以用文本、视频、音频的形式来描述等。

问题:尽管这些视图通常代表同一数据的不同且互补的信息,但由于多个视图之间的偏差,将它们直接集成在一起并不能获得始终如一的令人满意的性能。

多视图学习(MVL):旨在通过组合多个不同的特征或数据源来学习共同的特征空间或共享模式。

流行的 MVL 方法:是将多视图数据映射到一个公共特征空间,最大限度地提高多个视图的相互一致性。

较早且具有代表性的方法:是典型相关分析(CCA),它是一种搜索两个特征向量的线性映射的统计方法。之后,CCA 的各种扩展一直致力于学习多模态或视图的共享低维特征空间,例如内核 CCA [23,24]、共享内核信息嵌入 [18,25]。

CCA问题:尽管上述这些方法取得了可喜的结果,但它们使用手工制作的特征和线性嵌入函数,无法捕捉复杂多视图数据的非线性特性
在这里插入图片描述
解决办法:由于深度学习方法强大的特征抽象能力,深度学习方法可以通过允许多个分层来有效地学习目标数据的复杂、微妙、非线性和抽象表示。

分类:例如深度学习领域多视图自动编码器 (AE)、传统神经网络 (CNN) 和深度简短网络 (DBN)
传统学习方法遇到深度学习模型时 MVL 机制的进步,例如深度多视图典型相关分析 (CCA)、矩阵分解 (MF) 和信息瓶颈 (IB).

在这里插入图片描述

作者将多视图深度学习分为CNN,AE,GAN,GNN,DBN,RNN
在这里插入图片描述

2 深度学习范围内的多视图学习方法

2.1 多视图卷积神经网络

卷积神经网络 (CNN) [31] 旨在学习具有各种参数优化的高级特征表示 [41-43],并在各个领域展示了卓越的性能 [44,45]。
多视图 CNN 架构旨在整合来自不同视图的多视图信息,以获得更具辨别力的通用表示。现有的多视图 CNN 架构通常分为以下两种类型:单视图一网络机制多视图一网络机制,如图 3 所示。
在这里插入图片描述

单视图一单网络机制:的多视图 CNN 对每个视图采用一个卷积神经网络,并分别提取每个视图的特征表示,然后通过网络的后续部分融合多个表示 [49–52,2, 53,46–48]。

举例:以 3D 形状识别为例,Yang 等人 [46] 提出了一种多视图 CNN 方法,用于 3D 模型的综合特征提取和聚合。正如我们从图 4 中看到的,给定一个 3D 模型,它首先被转换为生成 N 个图像的 N 个视图。然后,将这些图像放入 N 个 CNN 架构中,以获得每个视图的特征表示。这些特定于视图的特征被集成并传递到以下特征聚合模型中,以获得紧凑的、有判别力的形状特征。
在这里插入图片描述

多视图- 单网络机制:将多视图数据馈送到同一网络以获得最终表示。

举例:Dou 等人 [54]提出了一种通过结合多层次信息进行肺结节检测的上下文 3D CNN。该网络包括 3D 卷积层、3D 最大池化层和全连接层,用于分层提取最终特征表示。

区别:本质上,one-view-one-net机制和multi-view-one-net机制的区别在于不同视图的融合方式。同样以3D形状识别为例,设 x t a ∈ R H ∗ W ∗ D x^a_t \in R^{H*W*D} xtaRHWD x t b ∈ R H ∗ W ∗ D x^b_t \in R^{H*W*D} xtbRHWD表示融合层的两个输入数据,y表示融合层的输出结果,其中H;W;D 是当前层的维度。表 1 总结了两种不同的融合类型。
在这里插入图片描述

2.2. 多视图自动编码器

自动编码器 (AE) 是神经网络的一种变体,在数据检索 [35]、人体姿势恢复 [55] 和疾病分析 [56] 等病毒应用中取得了可喜的成果。

AE的组成:AE是深度学习文献中的无监督特征学习方法。
由两个目标函数组成:编码函数f()和解码函数g()。具体来说,编码函数旨在将输入数据 X ∈ R D 1 X \in R^{D_1} XRD1 映射到压缩隐藏表示 V ∈ R D 2 V \in R^{D_2} VRD2 V ≈ f ( X ) V \approx f(X) Vf(X) ,其中 D1 和 D2 是原始数据及其压缩表示的维度。解码函数 g(x) 旨在从其压缩的隐藏表示中重建数据 X,使得 g ( V ) ≈ X g(V) \approx X g(V)X. AE架构的超参数是通过重建的最小化误差 L ( X , g ( V ) ) L(X,g(V)) L(X,g(V))得到的;
可以通过一些损失来衡量,比如平方损失。例如AE的cost function用square loss作为reconstruction error制定如下:
在这里插入图片描述
举例1:例如,Ngiam 等人 [57] 设计了一种新颖的双峰自动编码器(BAE),如图 5 所示。BAE 旨在找到音频和视频,通过最小化两个输入视图和重建表示的重建误差。
在这里插入图片描述
举例2:受 BAE 的启发,Feng 等人 [35] 提出了一种对应自动编码器(Corr-AE)来进行跨模态检索,它同时学习多种模态的共享信息和每个模态中的特定信息。 Corr-AE 的主要思想是最小化多个模态之间的相关学习误差和每个模态的特征学习误差。如图 6 所示,所提出的 Corr-AE 模型由以下两个子网络组成,每个子网络都是一个基本的自动编码器。这两个子网络通过设计一个具有预定义相似性度量的代码层来组合。 Feng 等人 [35] 还提出了 Corr-AE 的全模态版本,它可以看作是标准自动编码器和 Corr-AE 的集成,如图 6 所示。(b)
在这里插入图片描述
举例3:Zhang 等人 [59] 在自动编码器网络 (AE2-Nets) 中提出了一种自动编码器,它专注于无监督表示学习的任务。 AE2-Nets 旨在自动将异构视图映射到通用表示,同时自适应地平衡多个视图之间的一致性和互补性。 AE2-Nets采用内部自动编码器网络从每个单视图中提取信息,并采用外部自动编码器网络对多视图信息进行编码。
在这里插入图片描述

2.3. 多视图生成对抗网络

生成对抗网络:作为一种无监督的深度学习模型,生成对抗网络 (GAN) 已成功应用于许多领域并取得了可喜的成果,例如图像到图像的转换 [65] 和图像修复 [66]。

组成:通常,基本的 GAN 包括一个生成模型 G 和一个判别模型 D,因此,它具有最突出的对抗训练特征。生成模型 G 表征源数据的分布,而判别模型 D 旨在从训练数据中估计概率分布。

方法:在本节中,我们使用变量 x 表示训练图像,并使用变量 z 表示先验噪声。在 GAN 的设置中,我们将先验噪声 z 作为 G 的输入,而将假图像 G(z) 作为 G 的输出。生成器的过程可以表述为一个函数 G(z;hg); 其中hg为G的参数。同理,D​​的输入输出为x和单标量D(x;hd);分别为其中的Dðx; hdÞ 是 x 属于训练数据的概率。 GAN的最终目标是得到如下参数:
在这里插入图片描述
基于 GAN 的多视图生成方法首先使用编码器 E 将输入图像映射到潜在空间 Z,然后采用解码器 G 生成新视图

举例:多纳休等[36] 提出双向 GAN(BiGAN)来联合学习推理网络 E 和生成器 G。换句话说,BiGAN 提供了一种学习将数据投影回潜在空间的逆映射的方法。
Tran 等人 [33] 提出了一种== DR-GAN 方法==,该方法也旨在通过学习身份保留表示来合成多视图图像。在 DR-GAN 中,其编码器的输出同时充当解码器的输入,因此无法处理新数据。
Huang et al [68] 提出使用双通路 GAN 进行前视图合成,其中这两个通路采用两个不同的编码器解码器网络,这两个通路捕获全局特征和局部细节。
Tian 等人 [67] 提出了一种
双路径 GAN
来保持学习嵌入空间的完整性。这两种学习途径以参数共享的方式协作和竞争,显着提高了对未见数据集的泛化能力。这些基于 GAN 的多视图生成之间的差异如图 7 所示。
在这里插入图片描述

举例2:除了多视图生成,GAN 还被应用于许多其他多视图应用程序。
例如,Wang 等人 [69] 提出了一种对抗性相关自动编码器(ACAE)来获得多视图数据的共享特征空间,应用于跨视图检索和分类。
Xuan 等人 [70] 专注于多视图珍珠分类,因此提出了一种多视图 GAN 来扩展标记的珍珠图像,用于训练多流 CNN。
Sun 等人 [71] 提出了一种基于 GAN 的多视图嵌入网络,它同时保留来自单个网络视图的信息并考虑不同视图之间的连接性。
Chen 等人 [72] 提出了 BiGAN 的多视图扩展来进行多视图源数据的密度估计。

2.4. 多视图图神经网络

2.5. 多视图深度信念网络

2.6. 多视图RNN

后面三种待完结!
有兴趣的可以直接看原论文!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值