ICLR 2020 VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS

论文提出VL-BERT,一个预训练的通用视觉-语言表示模型,用于融合和对齐视觉与语言信息。模型基于Transformer,通过预训练任务如 masked 语言模型和 masked RoI 分类在视觉-语言和纯文本数据集上进行训练,提升了对视觉-语言任务的泛化能力。实验显示,VL-BERT在VCR、VQA和referring表达理解等任务上达到最先进的性能。
摘要由CSDN通过智能技术生成
动机
  1. 在视觉和文本领域,在一系列任务上通过预训练获得通用特征都取得了显著的成效。然而,在视觉-语言任务(V-L任务)中经过预训练的通用表示模型仍然匮乏(大部分是任务特定的模型)。

    对适用于一个领域中各种任务的通用特征表示进行预训练是深度网络成功的一个标志。首先,在计算机视觉领域,为ImageNet分类设计并预训练的主干网被发现能够有效地改进众多的图像识别任务。近年来,在自然语言处理(NLP)领域,Transformer网络在大型语言语料库excel上用“masked语言模型”(MLM)目标进行了多种NLP任务的预训练。同时,对于视觉和语言交叉的任务,如图像captioning、视觉问答(VQA)、视觉常识推理(VCR),缺乏这种预训练好的类属特征表示。以前的做法是以特定任务的方式分别结合用于图像识别和NLP的预训练好的基础网络。任务特定模型直接针对特定的目标任务进行优化,不需要任何通用的视觉-语言预训练。当目标任务的数据稀少时,任务特定模型很可能会受到过拟合的影响。此外,由于特定于任务的模型设计,很难从预训练中获益,因为预训练任务很可能与目标不同。对于视觉-语言任务的特征设计和预训练的研究缺乏共同点。

  2. 学习一个泛化表示,以有效地融合和对齐视觉和语言的信息。

    在为不同的视觉-语言任务设计的各种网络体系结构中,一个关键目标是有效地融合视觉和语言领域的多模态信息。例如,在VQA任务中,为了选择正确的答案,网络需要整合问题和答案中的语言信息,融合输入图像中的视觉信息,并使语言意义与视觉线索一致对齐。因此,本论文寻求得到能够有效地融合和对齐视觉和语言信息的泛化表示。

  3. VL-BERT的提出。

    本论文看到Transformer注意力在NLP中的成功应用,以及其在BERT中基于MLM的预训练技术。attention模块在融合和对齐句子中的单词嵌入特征方面具有很强的灵活性,而BERT中的预训练进一步增强了这种能力。受此启发,提出了VL-BERT,一个用于视觉-语言任务的预训练通用表示。

方法
简介

提出了一种新的视觉语言任务的预训练泛化表示,称为视觉语言BERT(VL-BERT)。VL-BERT的核心是多模态Transformer注意力模块,它将视觉和语言嵌入特征作为输入。其中,每个元素要么是来自输入句子的一个单词,要么是来自输入图像的一个感兴趣区域(RoI),再加上一些特殊的元素来消除不同输入格式的歧义。每个元素可以根据在其内容、位置、类别等上定义的兼容性,自适应地融合来自所有其他元素的信息。一个单词/RoI的内容特征是领域特定的(WordPiece embeddings作为单词特征,Fast R-CNN特征用于RoI)。通过堆叠多层多模态Transformer注意力模块,导出的表示具有丰富的视觉-语言线索融合和对齐能力。并且可以在上面为特定的视觉-语言任务添加特定于任务的分支。

VL-BERT与其他并发作品在预训练方面有三个值得注意力的区别。(1)本论文发现,ViLBERT和LXMERT的句子-图像关系预测任务对视觉-语言表示的预训练没有帮助。因此,在VL-BERT中没有包含这样的任务。(2)对VL-BERT进行了视觉-语言和纯文本数据集的预训练。本论文发现这样的联合预训练提高了长句子和复杂句子的泛化能力。(3)改善视觉表示的调整。在VL-BERT中,对Fast R-CNN的参数进行了更新,得到了视觉特征。在基于语言线索的masked感兴趣区域分类的预训练任务中,为了避免视觉线索泄漏,对输入的原始像素进行masked操作,而不是对由多层卷积产生的特征映射进行masked操作。

为了更好地利用通用表示,本论文利用Conceptual Captions数据

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值