CVPR 2019 ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language

本文介绍了ViLBERT模型,它通过预训练学习任务无关的图像和自然语言联合表征,克服了现有模型在视觉理解和语言理解上的局限。模型采用双流结构处理图像和文本信息,通过多模态共注意力机制融合不同模态特征。实验显示,ViLBERT在多个视觉和语言任务中显著优于任务特定模型。
摘要由CSDN通过智能技术生成
动机

现存方法的两大局限性:

视觉理解任务使用的主要策略是先基于其他大规模任务分别预训练视觉和语言模型,然后将其作为具体任务的一部分基础知识。然而,1)这种方案学习到的基础知识并不牢靠,当visiolinguistic data有限或者有偏时(biased),模型的泛化能力很差。此外,2)在单模态数据上学习的近乎完美的表征,往往忽略了与其他模态之间的联系。比如,即使狗品种分类的视觉表征是完美的,但在下游任务中模型若无法将该视觉表征与形如"小猎犬"或"牧羊人"这样的近似短语进行关联,这种完美的视觉表征也是近乎无用的。

方法
简介

提出ViLBERT(Vision-and-Language BERT),该模型用来学习任务无关的图像和自然语言联合表征。ViLBERT在BERT的基础上拓展为多模态的双流模型,在各自的流中处理图像和文本输入,这两个流通过Co-attention transformer层进行交互。通过在大型的、自动收集的Conceptual Captions数据集上的两个任务预训练本论文的模型,然后将其转移到多个已建立的视觉和语言任务–视觉问题回答、视觉常识推理、引用表达式和基于caption的图像检索,仅需对基础架构进行少量的调整。实验结果表明本文的ViLBERT在4个下游任务中显著优于面向特定任务的最先进模型。ViLBERT代表了一种转折:从将学习视觉和语言之间的基础知识仅作为具体任务的一部分,转向把视觉基础知识(visual grounding)作为一种可预训练和可迁移的能力。

BERT

BERT模型是一种基于注意力的双向语言模型。在大型语言语料库上进行预训练后,BERT已经被证明对于多个自然语言处理任务的迁移学习是非常有效的。在BERT中,一个单一的编码器式transformer块是由一个多头注意力块和一个小的完全连接的网络组成,这两个都被包裹在残差中。查询和键之间的点积相似性决定了在值向量上的注意力分布。得到的加权平均的值向量形成注意力块的输出。本论文修改了这个查询条件的键值的注意力机制,以为ViLBERT开发一个多模态共注意transformer模块。

Multi-Modal Co-Attention

在这里插入图片描述

由于主流视觉文本模型的局限性,ViLBERT旨在将视觉信息和文本信息连在一起。如果使用最简单粗暴的方法进行预训练,例如,使用一个BERT,把不同的视觉输入聚类后离散化,当作离散的图像token,像文本token一样输入预训练好的BERT里进行单一流预训练。那么将存在以下问题:

1)对于视觉信息和文本信息流的方法是相同的——不合适。因为不同信息的抽象程度和复杂度不同,且忽略了它们可能需要不同level级别的处理。比如,图像区域之间的关系可能比句子中的单词弱,而视觉特征本身往往已经是一个非常深的网络的输出。
2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值