通用的图像-文本语言表征学习:多模态预训练模型 UNITER

通用的图像-文本语言表征学习:多模态预训练模型 UNITER

 

通用的图像-文本语言表征学习:多模态预训练模型 UNITER

导读: 联合图像-文本的表征学习为大多数视觉+语言 ( V+L ) 任务的基础,一般通过联合处理多模态输入,得到用于实现对视觉和文本的理解。但是,这种特征通常是针对特定任务的。在本文将介绍一种通用的图像-文本表征学习 UNITER。UNITER 是通过在四个图像-文本数据集 ( COCO, Visual Genome, Conceptual Captions, and SBU Captions ) 上进行大规模的预训练而获得的,可以通过联合多模态嵌入为异构下游 V+L 任务提供支持。

研究人员设计了三个预训练的任务:掩蔽语言建模 ( MLM )、图像-文本匹配 ( ITM ) 和掩蔽区域建模 ( MRM )。UNITER 在6个 V+L 任务 ( 超过9个数据集 ) 上实现了新的技术水平,包括可视化问题回答 、图像-文本检索、引用表达式理解、视觉常识推理、视觉蕴涵和 NLVR2。

具体分享内容如下:

  • 背景

  • UNITER 训练数据集

  • UNITER 预训练模型

  • UNITER 下游任务组成

  • 结论

▌背景

通用的图像-文本语言表征学习:多模态预训练模型 UNITER

我们的工作都是在研究 Vision 和 Language,这些任务需要的模型不仅要对图像或者其他视觉输入进行识别,而且对自然语言也要有很好的理解。这些研究都是在图像和自然语言处理的交界处,所以近年来涌现了很多有意思的新方向。例如:

  • Image Captioning:给定一张图片,我们可以概括图片内容;

  • Visual Question Answering:对这张图片进行提问,让模型回答相关的问题;

  • Dense Captioning:我们也会对图片的细节感兴趣,针对图片的特定区域进行描述;

  • Referring Expressions:给定一个描述语句,并定位该语句的指定区域;

  • Visual Dialogue:针对图片还可以进行多轮问答。

▌UNITER 训练数据集

在过去的五年中,Vision+NLP 的研究者们做出了很多的努力,提出了很多新的任务,同时建立了多个大的数据集,以下列出的是其中非常有名的数据集:

通用的图像-文本语言表征学习:多模态预训练模型 UNITER

1. 免费数据集上的自监督学习

上面所提到的标注数据需要大量的资金支持,并不是所有研究所都有这个资本收集获得这样的数据集。我们都知道这样的标注数据是很有用的,但是图片和文本本身就带有这样的标注信息,我们通过自监督的方式进行学习。

① Self-SupervisedLearning for Vision

通用的图像-文本语言表征学习:多模态预训练模型 UNITER

在图像中我们可以训练 CNN 模型对一张灰度图片进行上色,从而用 CNN 来学习对这张图片的表示,这样的图片在网上也是随处可见的。我们还可以使用其他的任务来训练 CNN 对图片的表示,然后使用这些图片表示来应用到其他分类任务上面。

② Self-SupervisedLearning for NLP

通用的图像-文本语言表征学习:多模态预训练模型 UNITER

在最近一年中,NLP 也有了很大的突破,具有代表性的工作是 Bert 和 GPT2。这两个任务都是使用 Transfomer,Bert 应用的是 Transforme

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值