Visual BERT论文的简单汇总

最新推荐文章于 2024-04-17 09:53:44 发布

NeverMoreH

最新推荐文章于 2024-04-17 09:53:44 发布

阅读量3k

点赞数 5

分类专栏： vision&language # visual BERT 文章标签： VisualBERT

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ms961516792/article/details/107538974

版权

vision&language 同时被 2 个专栏收录

53 篇文章 9 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

目录

ICCV 2019 VideoBERT
NIPS 2019 ViLBERT
arXiv 2019 VisualBERT
arXiv 2019 CBT
arXiv 2019 UNITER
EMNLP-IJCNLP 2019 B2T2
EMNLP-IJCNLP 2019 LXMERT
AAAI 2020 Unicoder-VL
ICLR 2020 VL-BERT
AAAI 2020 VLP
CVPR 2020 12-in-1
对比

关于BERT和Transformer的介绍，可以看我的这篇博客。

ICCV 2019 VideoBERT

题目
VideoBERT: A Joint Model for Video and Language Representation Learning
下载链接
简述
本文将BERT从NLP领域移植到了视频+语言的跨模态领域，将BERT中的“句子pair”改为了“句子视频pair”，类似于BERT，对视频帧进行随机的MASK。最终在动作分类和video captioning上进行了测试。

NIPS 2019 ViLBERT

题目
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
下载链接
简述
本文采用双路输入（支持多模态输入），将图片和文本分别处理，并通过co-attention transformer层进行交互。最终在VQA、VCR、Grounding Referring Expressions和Caption-Based Image Retrieval四个任务上进行了测试。

arXiv 2019 VisualBERT

题目
VisualBERT: A Simple and Performant Baseline for Vision and Language
下载链接
简述
本文的结构和Video BERT类似，均将text feature和visual feature串联。不同的是，本文的visual feature使用的是region feature，但是没有对其进行mask。损失通过Objective1（word mask）和Objective2（输出序列整体）进行约束。

arXiv 2019 CBT

题目
Learning Video Representations using Contrastive Bidirectional Transformer
下载链接
简述
本文和videoBERT一样，使用video feature作为visual feature。但是，本文没有将visual feature和word feature串联，而是分别进行，再通过一个跨模态Transformer对二者进行联合。

arXiv 2019 UNITER

题目
UNITER: Learning UNiversal Image-TExt Representations
下载链接
简述
本文的结构也是使用region feature作为visual feature，将其与word feature串联，并进行mask。多了一个region mask objectives。

EMNLP-IJCNLP 2019 B2T2

题目
Fusion of Detected Objects in Text for Visual Question Answering
下载链接
简述
本文提出了两种方法，分别是：late fusion和early fusion。late fusion的输入部分和BERT几乎没差，只是在[cls]输出端，融合visual feature进行分类。early fusion的输入部分，将word mask使用visual feature进行替换。本文的一大创新是，没有使用单独的visual feature输入序列。

EMNLP-IJCNLP 2019 LXMERT

题目
LXMERT: Learning Cross-Modality Encoder Representations from Transformers
下载链接
简述
本文方法采用双路输入，上分支用于训练视觉能力，使用region feature作为输入；下分支用于训练文本能力，使用word feature作为输入；最终通过一个跨模态encoder进行交互。本文在VQA和 NLVR2（Natural Language for Visual Reasoning for Real）任务上进行了测试。

AAAI 2020 Unicoder-VL

题目
Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal
Pre-training
下载链接
简述
本文在结构上类似于VideoBERT，将visual feature和text feature串联在一起，但是本文的visual feature使用的是region feature，预测部分直接预测label。

ICLR 2020 VL-BERT

题目
VL-BERT: Pre-training of Generic Visual-Linguistic Representations
下载链接
简述
本文在方法上和Unicoder-VL类似，都是使用region feature作为visual feature。不同的是，本文在embedding中加入了Visual Feature Embedding（完整图像的特征）。本文方法基于Conceptual Captions数据集进行了训练，且在VCR排行榜上取得了single model的最好成绩。

AAAI 2020 VLP

题目
Unified Vision-Language Pre-Training for Image Captioning and VQA
下载链接
简述
本文与前人工作不同的是，在预训练任务中引入了seq2seq的mask语言模型，使其更适合做Image Captioning和Visual Question Answering。

CVPR 2020 12-in-1

题目
12-in-1: Multi-Task Vision and Language Representation Learning
下载链接
 详细介绍
简述
本文在NIPS 2019 ViLBERT的基础上，首先修改了预训练过程，有两个小修改：1. 对regions进行mask时，将IoU大于0.4的regions也mask掉，避免视觉信息泄漏；2. 在多模态对齐的负样本采样时，不强制masked multi-modal modelling loss，这样可以有效地降低负样本带来的噪声。其次，有两处不同（创新）：1. 提出Clean V&L Multi-Task setup，可以在多任务训练过程中，确保没有任务泄漏；2. 提出多任务训练模型，在12个V&L数据集上同时训练，在四个任务上进行了验证：Vocab-based VQA、Image Retrieval、Referring Expressions和Multi-modal Verification。

对比

下图出自AAAI 2020 VLP

下图出自ICLR 2020 VL-BERT

关注

5
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
Visual BERT论文的简单汇总

目录ICCV 2019 VideoBERTNIPS 2019 ViLBERTarXiv 2019 VisualBERTarXiv 2019 CBTarXiv 2019 UNITEREMNLP-IJCNLP 2019 B2T2EMNLP-IJCNLP 2019 LXMERTICLR 2020 VL-BERTAAAI 2020 Unicoder-VLAAAI 2020 VLPCVPR 2020 12-in-1关于BERT和Transformer的介绍，可以看我的这篇博客。ICCV 2019 VideoBE
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。