目录
关于BERT和Transformer的介绍,可以看我的这篇博客。
ICCV 2019 VideoBERT
- 题目
VideoBERT: A Joint Model for Video and Language Representation Learning
下载链接 - 简述
本文将BERT从NLP领域移植到了视频+语言的跨模态领域,将BERT中的“句子pair”改为了“句子视频pair”,类似于BERT,对视频帧进行随机的MASK。最终在动作分类和video captioning上进行了测试。
NIPS 2019 ViLBERT
- 题目
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
下载链接 - 简述
本文采用双路输入(支持多模态输入),将图片和文本分别处理,并通过co-attention transformer层进行交互。最终在VQA、VCR、Grounding Referring Expressions和Caption-Based Image Retrieval四个任务上进行了测试。
arXiv 2019 VisualBERT
- 题目
VisualBERT: A Simple and Performant Baseline for Vision and Language
下载链接 - 简述
本文的结构和Video BERT类似,均将text feature和visual feature串联。不同的是,本文的visual feature使用的是region feature,但是没有对其进行mask。损失通过Objective1(word mask)和Objective2(输出序列整体)进行约束。
arXiv 2019 CBT
- 题目
Learning Video Representations using Contrastive Bidirectional Transformer
下载链接 - 简述
本文和videoBERT一样,使用video feature作为visual feature。但是,本文没有将visual feature和word feature串联,而是分别进行,再通过一个跨模态Transformer对二者进行联合。
arXiv 2019 UNITER
- 题目
UNITER: Learning UNiversal Image-TExt Representations
下载链接 - 简述
本文的结构也是使用region feature作为visual feature,将其与word feature串联,并进行mask。多了一个region mask objectives。
EMNLP-IJCNLP 2019 B2T2
- 题目
Fusion of Detected Objects in Text for Visual Question Answering
下载链接 - 简述
本文提出了两种方法,分别是:late fusion和early fusion。late fusion的输入部分和BERT几乎没差,只是在[cls]输出端,融合visual feature进行分类。early fusion的输入部分,将word mask使用visual feature进行替换。本文的一大创新是,没有使用单独的visual feature输入序列。
EMNLP-IJCNLP 2019 LXMERT
- 题目
LXMERT: Learning Cross-Modality Encoder Representations from Transformers
下载链接 - 简述
本文方法采用双路输入,上分支用于训练视觉能力,使用region feature作为输入;下分支用于训练文本能力,使用word feature作为输入;最终通过一个跨模态encoder进行交互。本文在VQA和 NLVR2(Natural Language for Visual Reasoning for Real)任务上进行了测试。
AAAI 2020 Unicoder-VL
- 题目
Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal
Pre-training
下载链接 - 简述
本文在结构上类似于VideoBERT,将visual feature和text feature串联在一起,但是本文的visual feature使用的是region feature,预测部分直接预测label。
ICLR 2020 VL-BERT
- 题目
VL-BERT: Pre-training of Generic Visual-Linguistic Representations
下载链接 - 简述
本文在方法上和Unicoder-VL类似,都是使用region feature作为visual feature。不同的是,本文在embedding中加入了Visual Feature Embedding(完整图像的特征)。本文方法基于Conceptual Captions数据集进行了训练,且在VCR排行榜上取得了single model的最好成绩。
AAAI 2020 VLP
- 题目
Unified Vision-Language Pre-Training for Image Captioning and VQA
下载链接 - 简述
本文与前人工作不同的是,在预训练任务中引入了seq2seq的mask语言模型,使其更适合做Image Captioning和Visual Question Answering。
CVPR 2020 12-in-1
- 题目
12-in-1: Multi-Task Vision and Language Representation Learning
下载链接
详细介绍 - 简述
本文在NIPS 2019 ViLBERT的基础上,首先修改了预训练过程,有两个小修改:1. 对regions进行mask时,将IoU大于0.4的regions也mask掉,避免视觉信息泄漏;2. 在多模态对齐的负样本采样时,不强制masked multi-modal modelling loss,这样可以有效地降低负样本带来的噪声。其次,有两处不同(创新):1. 提出Clean V&L Multi-Task setup,可以在多任务训练过程中,确保没有任务泄漏;2. 提出多任务训练模型,在12个V&L数据集上同时训练,在四个任务上进行了验证:Vocab-based VQA、Image Retrieval、Referring Expressions和Multi-modal Verification。
对比
下图出自AAAI 2020 VLP
下图出自ICLR 2020 VL-BERT