2020:VL-BERT: Pre-training of generic visual-linguistic representation

摘要

        我们引入一种新的可预训练的视觉语言任务的通用表示方法---视觉-语言BERT(VL-BERT)。VL-BERT采用Transformer模型作为主干,将视觉和语言特征作为输入。输入的每个元素要么是输入句子中的一个单词,要么是输入图像中的一个感兴趣区域。它的是设计是为了适合大多数视觉-语言的下游任务。为更好的利用通用表示,我们在大规模的Conceptual Captions数据集和仅文本语料库上预训练。广泛的实验表明,预训练能过呢更好地对齐视觉-语言线索,有利于下游任务。

一、介绍

        之前的视觉-语言任务是将用于图像识别和NLP的预训练好的基本网络以特定于任务的方式结合起来,特定任务的模型直接用于特定目标任务的微调,没有任何通用的视觉-语言预训练。当目标任务的数据稀缺时,特定于任务的模型很可能会出现过拟合。此外,由于特定任务的模型设计,很难从预训练中获益,预训练任务可能与目标有很大不同。研究视觉-语言任务的特征设计和和预训练缺乏共同点。

        在VQA中,我们寻求推导出能够有效聚合和对齐视觉和语言信息的通用表示形式。我们开发了VL-BERT,一种用于视觉-语言任务的可预训练的通用表示方法,如图1。主干是transformer模块,视觉和语言的嵌入特征作为输入。每个元素要么是输入句子中的一个单词,或者输入图像中的一个感兴趣的区域(RoI),以及某些特定的元素,以消除输入格式不同的歧义。每个元素都可以根据在其内容、位置、类别等上定义的兼容性,自适应地聚合来自所有其它元素的信息。一个单词/一个RoI的内容特征是领域内特定的(单词特征是Word Piece嵌入、RoIs是Faster R-CNN特征),通过堆叠多层多模态Transformer注意力模块,所导出的表示具有丰富的视觉-语言线索的聚合和对齐能力,且特定任务的分支可以添加到上面用于特定的视觉-语言任务。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值