Multimodal Research in Vision and Language A Review of Currentand Emerging Trends阅读笔记
Abstract
最近,增强了视觉和语言交叉领域的研究兴趣,并且应用众多且发展迅速。
1 Introduction
通常情况下,我们以多模态形式感知现实世界的数据和活动,涉及多个信息源,尤其是在视觉和语言的交汇处,这引发了视觉语言的研究,包括更复杂的任务以及对交互式和可解释系统的需求。
视觉和语言的结合,出现各种挑战性的任务:如视觉语言导航(Vision-Language Navigation,VLN)——用于机器人的自主功能和对其环境的全面理解;视觉字幕(Vision Captioning, VC——用于从视觉产生丰富和有意义的语言描述
Scope of the survey. 范围 这项调查揭示了视觉语言研究领域的新进展,列举了构成当前多模态研究基础的各种任务,以及每个任务中的特殊趋势。
Related Surveys.
Organization of the survey. 第2节列出各种视觉任务,和数学问题公式及分类,第3节建立特定视觉语言任务的趋势概述,第4节讲述模型架构设计的趋势,包括注意力架构,transformer网络,多模态表示学习,以及所学到特征表示的融合技术。以及进化出来的部分任务,包括可解释性、多任务学习、领域适应和对抗。总结目前的挑战和未来的指南。
2 Tasks
视觉问答、视觉常识推理、视觉字幕和视觉生成对应于生成模型和方法,而其余的主要集中在感知任务上。像视觉语言导航这样的任务改善了机器对视觉和语言的一般和具体理解。我们根据手头的潜在问题对一些任务进行广泛分类,即生成、分类、检索或其他。
2.1 Generation Tasks
概述
Visual Question Answering(VQA)
VQA代表了在给定视觉输入(图像/视频)的情况下正确提供问题答案的任务。
数据集 D D D通常由input-question-answer三元组 组成,第 i i i个输入的三元组,表示为 < I i , Q i , A i > <I_i, Q_i, A_i> <Ii,Qi,Ai>
V = [ V j ] j = 1 n V V=[V_j]^{n_V}_{j=1} V=[Vj]j=1nV表示所有特殊图像的集合。
Q = [ Q j ] j = 1 n Q Q=[Q_j]^{n_Q}_{j=1} Q=[Qj]j=1nQ表示所有特殊问题的集合。
A = [ A j ] j = 1 n A A=[A_j]^{n_A}_{j=1} A=[Aj]j=1nA代表所有特殊答案的集合。
核心任务就是学习一个函数 f f f映射,返回关于视觉输入的给定问题的答案。 A ^ i = f ( V i , Q i ) \hat A_i = f(V_i, Q_i) A^i=f(Vi,Qi)。学习一个 f f f映射,使 f f f的输出结果 A ^ \hat A A^与真实值 A A A最小。
当输出是一组可能的答案时,我们称这种任务格式为 M C Q MCQ MCQ。
广义上可以将 M C Q MCQ MCQ V Q A VQA VQA形式的看作分类
更广义的VQA可以看做时生成任务。
Visual Captioning(VC)
视觉字幕是以自动方式为给定的视觉(图像或视频)输入生成语法和语义适当的描述的任务。
给定一个包含n个数据的数据集 D = [ < V 1 , C 1 > , < V 2 , C 2 > , . . . , < V n , C n > ] , 其 中 第 D=[<V_1, C_1>,<V_2, C_2>,...,<V_n,C_n>],其中第 D=[<V1,C1>,<V2,C2>,...,<Vn,Cn>],其中第 i i i个数据点为 < V i , C i > <V_i, C_i> <Vi,Ci>, V i V_i Vi为视觉输入, C i C_i Ci为对应的事实标签。
我们学习输入的表示,以便对所需信息进行语义编码。任务是利用这些信息生成一个标题 C ^ i \hat C_i C^i 生成的, C i = [ c i 1 , c i 2 , c i 3 , . . . , c i k ] C_i={[c_i^1, c^2_i, c^3_i,...,c^k_i]} Ci=[ci1,ci2,ci3,...,cik]由一些列单词组成。每一个token可以由RNN或者LSTM生成。
Visual Commonsense Reasoning(VCR)
视觉常识推理是机器在看到图像时推断认知理解和常识信息的任务。它要求机器正确回答关于图像的问题以及相关的理由。
输入: < I i , Q i > <I_i,Q_i> <Ii,Qi> , I i I_i Ii代表输入图像或者视频, Q i Q_i Qi代表相应的查询。
输出: < A i , R i > <A_i, R_i> <Ai,Ri>, A i A_i Ai代表答案 , R i R_i Ri代表相应的推理。
Natural Language for Visual Reasoning(NLVR)是VCR的一个子任务,其中任务是确定关于输入图像的陈述是真还是假。
Visual Generation(VG)
视觉生成是从给定的文本输入中生成视觉输出(图像或视频)的任务。它通常需要对语义信息有很好的理解,并相应地产生相关的和上下文丰富的连贯的视觉形式。
2.2 Classification Tasks
Multimodal Affective Computing(MAC)
情感计算是自动识别引起或产生于情感的情感现象的任务。多模态情感计算包括组合来自多种信号的线索,如文本、音频、视频和描绘表情、手势等的图像。,以解释相关的情感活动,类似于人类如何解释情感。
任务:给定图像或者视频以及给出视觉表达和相关的文本描述。
多模态情感计算涉及从多模态输入信号到不同情感现象的决策空间的学习映射。融合来自一个以上信号的信息,以实现对情感标签的共识,提供了人类级别的认知和更可靠的智能系统。
2.3 Retrieval Tasks
Visual Retrieval.
文本-图像检索的任务是一个跨模态的任务,涉及语言和视觉领域的理解以及适当的匹配策略。目标是根据文本描述从更大的视觉库中获取最相关的视觉。
通过文本来搜索图像或者视频。
2.4 Other Tasks
Vision-Language Navigation(VLN)
它基于语言指令来观察和探索现实世界的动态。是实时的。
Multimodal Machine Translation(MMT)
多模态机器翻译是翻译和描述生成的双重任务。它包括将描述从一种语言翻译成另一种语言,并从其他形式(如视频或音频)中获取附加信息。
输入: < V i , T i > <V_i, T_i> <Vi,Ti>,分别代表输入视觉信息和输入任务描述文本。
输出: T ^ i \hat T_i T^i 代表另一种语言。
3 Task-Specific Trends in VisLang Research
本节查看相关任务的最新论文,并分析任务中出现的趋势。
VC和VQA占据一半比例。
3.1 Visual Captioning
Image Captioning(IC)
图像字幕,属于多模态视觉字幕任务,模型输入是图像,
图像字幕任务的最新进展导致了该任务的不同路线和应用。
可以使用关系图来关联图像和字幕,以捕捉潜在的语义信息。可以用来在弱监督环境下生成新颖的字幕。
另一个流行的集成任务是密集图像字幕。它包括根据不同的潜在区域生成多个字幕描述。
Video Captioning(VC)
为视频序列生成描述。与密集图像字幕类似的是密集视频字幕的任务,其中视频中的所有事件都是在生成字幕时描述的。
Others
太小众,不考虑
Trends in VC.
视觉字幕是最受欢迎的视觉任务之一,在开发具有强大的
-
通过以元数据(meta-data)的形式给出额外的推理来增强这种模型的感知能力
-
风格转换字幕(Stylized captioning)及那个视觉领域的风格转换思想与VC结合,发展势头很猛。
-
表示学习增强模型性能。
-
自上而下和自下而上的注意力模型任然是最常用的框架。
很大一部分的VC方法,倾向于为视觉和语言输入形成单独的编码,从而部署网络。将视觉输入中存在的所有实体集合和语言输入中存在的实体集合建立关联。
VC是视觉语言结合领域的原始研究方向之一,基准数据集丰富。最常用的数据集是MSCOCO。
3.2 Visual Question Answering.(VQA)
Image Question Answering(IQA)
IQA任务要求推断图像中的语义和抽象概念,以便用获得的知识高保真地进行问答。
- 基于注意力的方法,强调对重要特征的关注。
- 基于知识的方法,还利用了外部知识。
Video Question Answering(ViQA)
ViQA包括以视频序列的形式回答基于时间数据的问题。
Visual Question Generation(VQG)
VQG任务需要生成给定图像的自然问题。它需要一个更密集的主题捕捉的背景,以产生一个相关的和不同的问题集
Visual Dialog
其中主要目标是使机器与人类关于图像的对话自动化。
Others. 略
Tends in VQA
在过去的十年里,VQA的任务增加了好几倍,
-
其中促进提高理解能力的注意力框架的发展已经成为现代VQA系统的一个基本组成部分。
-
共同注意最近发展成为最常用的注意框架,因为它有可能将视觉输入中的关键对象(通过第4.1节中描述的图像编码器识别)与问题中的文本实体相关联。
VQA v2是主流数据集
体系结构是使用基本的卷积层来编码视觉输入,预训练的transformer的embeddings 提高了模型的性能。这些模型先对每个模态生成单独的embeddings,然后进行融合。
3.3 Visual Commonsense Reasoning (VCR)
VCR [389]的任务是在视觉系统和世界常识推理中发展高阶认知,以便他们能够为自己的答案提供理由。
由BERT启发的transformer模型产生的编码被证明隐含地建立了存在于多模态数据源中的实体之间的关系,有助于推理过程。
模型是通过两步框架进行训练的,包括任务无关的预训练,然后是特定任务的微调。
Trends in VCR
最常见的视觉推理方法旨在模仿人脑识别视觉输入中更广泛的概念的认知,使其更容易理解不同实体之间关于这些概念的隐含关系。
3.4 Multimodal Machine Translation(MMT)
多模态翻译是一项任务,其中视觉数据作为一种补充,以促进将描述从一种语言翻译成另一种语言的主要任务。
3.5 Multimodal Affective Computing
略
3.6 Vision-Language Navigation (VLN)
略
3.7 Visual Generation
Text-to-Image Generation(T2I)
其他略
3.8 Visual Retrieval
大多数图像检索工作集中于为给定的文本查询获取相关的图像,由几个描述属性的特定关键字来表示,而不是拉长的文本描述。
Trends in VR
- 最近在文本到视觉检索任务中的工作强调了连贯视觉语言表示空间的学习,以获得精确的、有意义的匹配
- 无偏提取
- 基于反馈
4 Latest Trends in VisLang Modeling
4.1 Multimodal Representation Learning
包括视觉输入(图像/视频)和文本输入的多模态输入或者被单独编码以生成单独的表示,这些表示随后被融合,或者使用直接生成混合多模态表示的网络被同时处理。在这里,我们关注的是具有共享多模态潜在空间的多种方法。
Visual Encoders
视觉编码器执行提取视觉输入中存在的关键实体的语义信息的任务。它们将输入编码到一个低维的流形中,该流形捕捉主导属性并在它们之间形成关联。该编码器通常利用流行的基于图像分类的深层网络,如LeNet、VGGNet,ResNet。有时也使用流行的目标检测网络来提取特征,如RCNN, FastRCNN,YOLO等。
Language Encoders
为每个模态生成独立的embedding,通常由一个时态模型组成,许多多模态系统也采用简单的时间模型,如线性时态模型、RNNs或GRUs来生成基于文本的编码。
Hybrid Representations
一些方法试图从视觉语言输入中直接提取多模态特征。
但大多数的视觉语言任务,都是先分别提取在进行融合的操作。
Multimodal Fusion
多模态融合[13]是对应于视觉和文本输入的各个嵌入空间的融合,以获得一个复合空间,该复合空间拥有两者的知识:语义视觉特征以及各种视觉任务所需的上下文语言信息。
多模态学习容易面临的各种挑战:主要来源于相当大的体系结构和每种形式的不同学习速率而导致的过度适应。为了解决这些问题,作者提出了一种基于过度拟合趋势的优化方法。其他当代的方法也放弃了模型自由决定结合多模态特征的方法,而不是先验地固定它。
多视图序列学习是融合发挥关键作用的另一条视觉途径。
4.2 Attention Mechanisms
4.2.1 Onset of Attention Mechanisms
最初的工作包括语言编码器和解码器,主要是LSTM/GRU,用于机器翻译[299]和视频字幕[325]等任务
深度学习中的注意机制可以简单地定义为基于某些因素引导输入区域的重要性,并根据它们的影响对它们进行加权。
4.2.2 Attention in VisLang
Soft and Hard Attention
在软注意中,将注意力图乘以提取的特征并求和,以获得所有图像区域的相关性。相比之下,硬注意基于概率分布对某些特征进行采样,以获得最相关的图像区域。
Global and Local Attention
该机制的工作原理是构建一个上下文向量作为时间模型的隐藏状态的加权和,其权重由一个单独的对齐模型来学习。
在全局关注中,当前状态之前的每个状态都被考虑在内,同时计算与局部关注相反的输出,在局部关注中,只有几个状态被用于相同的目的。
Self-Attention
自我注意在编码阶段将其应用于输入序列本身,以生成更好的表示。
4.2.3 Paradigm Shift in VisLang Tasks
在过去的十年里,视觉和语言任务发生了巨大的变化,从需要处理融合多模态嵌入的简单任务,转变为需要高阶推理和深入理解输入中呈现的语义上下文的复杂任务。
Graph-based Attention.
基于图的注意力机制能够从视觉和基于语言的编码中提取的独立实体之间提取深层语义关系。这种框架倾向于捕捉编码表示和数据中存在的特征之间的内在关系。
Hierarchical Attention
分层注意力在基于视觉的任务中也有大量应用,如医学图像分割[70],视频中的动作识别[345],图像字幕[336],视频字幕生成[288],图像中的人群计数[285]。
Co-Attention 略
4.3 Transformers in Cross-Modal Research
4.3.1 Onset of Transformers for Capturing Temporal Data Characteristics
transformer是利用两个独立网络(即编码器和解码器)将一个序列转换成另一个序列的架构。
数据并行化,优于RNN和LSTM时间模型。
4.3.2 Pre-Training Trends using Transformers
Tan和Bansal [304]提出了LXMERT,一种跨模态转换器,通过利用对应于对象关系、语言和跨模态的三个专用编码器来预处理五个不同的任务,从而封装视觉-语言连接。
Devlin等人[68]介绍了BERT,它从文本数据中学习深度双向表示,设计了一个预先训练的模型,可以针对特定任务进行微调,如问题回答和自然语言推理。
ImageBERT [252]利用弱监督为涉及输入掩蔽和文本匹配的独特和特定预测任务生成图像-文本联合空间。
4.4 Evaluation Metrics
Metrics for IC
Metrics for VQA
Metrics for other VisLang Tasks.
5 Emerging Ideas in VisLang Research
5.1 Multi-task Learning
即跨多个任务的联合学习,将一个任务的学习转移到另一个任务,最终受益于每个任务的表现。
MTL框架还通过将特定的视觉任务分成子任务来提取有意义的表示,每个子任务结合起来解决完整的目标。
5.2 Interpretability and Explainability
可解释性
5.3 Domain Adaptation in VisLang
域适应
领域适应只是学习源领域的表示或模型并在目标领域上评估它的过程。典型地,在最初的无监督方法[86]中,源域的标签被用于通过分别为域和标签分类部署两个单独的分类器来实现目标域上不完整或没有标签的概括。
5.4 Zero-Shot Learning
学习在推理时间对训练阶段未见过的样本进行归纳,称为零镜头学习(ZSL),
各种方法试图通过部署基于ZSL的方法来解决特定数据集的标记示例的缺乏。
5.5 Adversarial Attacks
6 Discussion
Challenges
由于缺乏可用的标记数据的挑战,以及无监督(或弱监督)的方法,无监督的度量对于以接近人类评估的方式公平地评估渐进方法是必不可少的。
Future Directions 对比学习、概率图模型、可解释性模型和相关度量的新的基于推理数据集
强调算法在真实场景中部署的泛化能力,多任务学习、迁移学习、课程学习、强化学习、零触发学习(ZSL)和无监督/自我监督方法为许多视觉任务开辟了一条尚未穷尽的研究途径。