EMNLP 2019 LXMERT: Learning Cross-Modality Encoder Representations from Transformers

动机

视觉语言推理要求对视觉内容、语言语义以及跨模态的对齐和关系进行理解。过去已有大量的工作,分别开发具有更好的表示方法的骨干模型,用于语言和语音的单一模态。对于现有的视觉内容,人们已经开发了几个骨干模型,并在大型视觉数据集上显示了它们的有效性。开拓性工作还通过在不同任务上微调这些预训练的(特别是在ImageNet上)骨干模型来显示它们的泛化性。在语言理解方面,去年,本论文在构建具有大规模语境化语言模型预训练的通用背骨模型方面取得了强劲进展,这将各种任务的性能提高到了显著水平。尽管有这些影响较大的单模态研究,但针对视觉和语言模态对的大规模预训练和微调研究还很不发达。

方法
简介

视觉与语言推理需要对视觉概念、语言本身以及最重要的是对这两种形式之间的联系和关系的理解。因此,本论文首次提出了一个预训练好的视觉和语言跨模态框架,并在多个数据集上展示了其强大的性能。本论文将此框架命名为“LXMERT:((Learning Cross-Modality Encoder representations from Transformers))学习Transformers的跨模态编码器表示”(读作“LEKSMERT”)。这个框架是在最近的BERT式的创新之后修改的,同时进一步适应于有用的跨模态场景。本论文的新的跨模态模型专注于学习视觉和语言的交互作用,特别是对于单个图像及其描述性句子的表征。它由三个Transformer编码器组成:一个目标关系编码器,一个语言编码器,和一个跨模态编码器。为了更好地学习视觉和语言之间的跨模态对齐,本论文接下来用五个不同的代表性任务对模型进行预训练:(1)masked的跨模态语言建模,

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值