Visual BERT论文的简单汇总

关于BERT和Transformer的介绍,可以看我的这篇博客

ICCV 2019 VideoBERT

  • 题目
    VideoBERT: A Joint Model for Video and Language Representation Learning
    下载链接
  • 简述
    本文将BERT从NLP领域移植到了视频+语言的跨模态领域,将BERT中的“句子pair”改为了“句子视频pair”,类似于BERT,对视频帧进行随机的MASK。最终在动作分类和video captioning上进行了测试。


NIPS 2019 ViLBERT

  • 题目
    ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
    下载链接
  • 简述
    本文采用双路输入(支持多模态输入),将图片和文本分别处理,并通过co-attention transformer层进行交互。最终在VQA、VCR、Grounding Referring Expressions和Caption-Based Image Retrieval四个任务上进行了测试。


arXiv 2019 VisualBERT

  • 题目
    VisualBERT: A Simple and Performant Baseline for Vision and Language
    下载链接
  • 简述
    本文的结构和Video BERT类似,均将text feature和visual feature串联。不同的是,本文的visual feature使用的是region feature,但是没有对其进行mask。损失通过Objective1(word mask)和Objective2(输出序列整体)进行约束。


arXiv 2019 CBT

  • 题目
    Learning Video Representations using Contrastive Bidirectional Transformer
    下载链接
  • 简述
    本文和videoBERT一样,使用video feature作为visual feature。但是,本文没有将visual feature和word feature串联,而是分别进行,再通过一个跨模态Transformer对二者进行联合。


arXiv 2019 UNITER

  • 题目
    UNITER: Learning UNiversal Image-TExt Representations
    下载链接
  • 简述
    本文的结构也是使用region feature作为visual feature,将其与word feature串联,并进行mask。多了一个region mask objectives。


EMNLP-IJCNLP 2019 B2T2

  • 题目
    Fusion of Detected Objects in Text for Visual Question Answering
    下载链接
  • 简述
    本文提出了两种方法,分别是:late fusion和early fusion。late fusion的输入部分和BERT几乎没差,只是在[cls]输出端,融合visual feature进行分类。early fusion的输入部分,将word mask使用visual feature进行替换。本文的一大创新是,没有使用单独的visual feature输入序列。


EMNLP-IJCNLP 2019 LXMERT

  • 题目
    LXMERT: Learning Cross-Modality Encoder Representations from Transformers
    下载链接
  • 简述
    本文方法采用双路输入,上分支用于训练视觉能力,使用region feature作为输入;下分支用于训练文本能力,使用word feature作为输入;最终通过一个跨模态encoder进行交互。本文在VQA和 NLVR2(Natural Language for Visual Reasoning for Real)任务上进行了测试。


AAAI 2020 Unicoder-VL

  • 题目
    Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal
    Pre-training
    下载链接
  • 简述
    本文在结构上类似于VideoBERT,将visual feature和text feature串联在一起,但是本文的visual feature使用的是region feature,预测部分直接预测label。


ICLR 2020 VL-BERT

  • 题目
    VL-BERT: Pre-training of Generic Visual-Linguistic Representations
    下载链接
  • 简述
    本文在方法上和Unicoder-VL类似,都是使用region feature作为visual feature。不同的是,本文在embedding中加入了Visual Feature Embedding(完整图像的特征)。本文方法基于Conceptual Captions数据集进行了训练,且在VCR排行榜上取得了single model的最好成绩。


AAAI 2020 VLP

  • 题目
    Unified Vision-Language Pre-Training for Image Captioning and VQA
    下载链接
  • 简述
    本文与前人工作不同的是,在预训练任务中引入了seq2seq的mask语言模型,使其更适合做Image Captioning和Visual Question Answering。


CVPR 2020 12-in-1

  • 题目
    12-in-1: Multi-Task Vision and Language Representation Learning
    下载链接
    详细介绍
  • 简述
    本文在NIPS 2019 ViLBERT的基础上,首先修改了预训练过程,有两个小修改:1. 对regions进行mask时,将IoU大于0.4的regions也mask掉,避免视觉信息泄漏;2. 在多模态对齐的负样本采样时,不强制masked multi-modal modelling loss,这样可以有效地降低负样本带来的噪声。其次,有两处不同(创新):1. 提出Clean V&L Multi-Task setup,可以在多任务训练过程中,确保没有任务泄漏;2. 提出多任务训练模型,在12个V&L数据集上同时训练,在四个任务上进行了验证:Vocab-based VQA、Image Retrieval、Referring Expressions和Multi-modal Verification。


对比

下图出自AAAI 2020 VLP

下图出自ICLR 2020 VL-BERT

  • 5
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值