通用的图像-文本语言表征学习：多模态预训练模型 UNITER

最新推荐文章于 2022-10-16 12:15:42 发布

baidu_huihui

最新推荐文章于 2022-10-16 12:15:42 发布

阅读量2.9k

点赞数 2

分类专栏：多模态预训练模型自监督学习自然语言处理

本文链接：https://blog.csdn.net/baidu_41617231/article/details/107294229

版权

通用的图像-文本语言表征学习：多模态预训练模型 UNITER

导读： 联合图像-文本的表征学习为大多数视觉+语言 ( V+L ) 任务的基础，一般通过联合处理多模态输入，得到用于实现对视觉和文本的理解。但是，这种特征通常是针对特定任务的。在本文将介绍一种通用的图像-文本表征学习 UNITER。UNITER 是通过在四个图像-文本数据集 ( COCO, Visual Genome, Conceptual Captions, and SBU Captions ) 上进行大规模的预训练而获得的，可以通过联合多模态嵌入为异构下游 V+L 任务提供支持。

研究人员设计了三个预训练的任务：掩蔽语言建模 ( MLM )、图像-文本匹配 ( ITM ) 和掩蔽区域建模 ( MRM )。UNITER 在6个 V+L 任务 ( 超过9个数据集 ) 上实现了新的技术水平，包括可视化问题回答、图像-文本检索、引用表达式理解、视觉常识推理、视觉蕴涵和 NLVR2。

具体分享内容如下：

背景
UNITER 训练数据集
UNITER 预训练模型
UNITER 下游任务组成
结论

▌背景

通用的图像-文本语言表征学习：多模态预训练模型 UNITER

我们的工作都是在研究 Vision 和 Language，这些任务需要的模型不仅要对图像或者其他视觉输入进行识别，而且对自然语言也要有很好的理解。这些研究都是在图像和自然语言处理的交界处，所以近年来涌现了很多有意思的新方向。例如：

Image Captioning：给定一张图片，我们可以概括图片内容；
Visual Question Answering：对这张图片进行提问，让模型回答相关的问题；
Dense Captioning：我们也会对图片的细节感兴趣，针对图片的特定区域进行描述；
Referring Expressions：给定一个描述语句，并定位该语句的指定区域；
Visual Dialogue：针对图片还可以进行多轮问答。

▌UNITER 训练数据集

在过去的五年中，Vision+NLP 的研究者们做出了很多的努力，提出了很多新的任务，同时建立了多个大的数据集，以下列出的是其中非常有名的数据集：

通用的图像-文本语言表征学习：多模态预训练模型 UNITER

1. 免费数据集上的自监督学习

上面所提到的标注数据需要大量的资金支持，并不是所有研究所都有这个资本收集获得这样的数据集。我们都知道这样的标注数据是很有用的，但是图片和文本本身就带有这样的标注信息，我们通过自监督的方式进行学习。

① Self-SupervisedLearning for Vision

通用的图像-文本语言表征学习：多模态预训练模型 UNITER

在图像中我们可以训练 CNN 模型对一张灰度图片进行上色，从而用 CNN 来学习对这张图片的表示，这样的图片在网上也是随处可见的。我们还可以使用其他的任务来训练 CNN 对图片的表示，然后使用这些图片表示来应用到其他分类任务上面。

② Self-SupervisedLearning for NLP

通用的图像-文本语言表征学习：多模态预训练模型 UNITER

在最近一年中，NLP 也有了很大的突破，具有代表性的工作是 Bert 和 GPT2。这两个任务都是使用 Transfomer，Bert 应用的是 Transforme

最低0.47元/天解锁文章

baidu_huihui

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
通用的图像-文本语言表征学习：多模态预训练模型 UNITER

通用的图像-文本语言表征学习：多模态预训练模型 UNITER导读：联合图像-文本的表征学习为大多数视觉+语言 ( V+L ) 任务的基础，一般通过联合处理多模态输入，得到用于实现对视觉和文本的理解。但是，这种特征通常是针对特定任务的。在本文将介绍一种通用的图像-文本表征学习 UNITER。UNITER 是通过在四个图像-文本数据集 ( COCO, Visual Genome, Conceptual Captions, and SBU Captions ) 上进行大规模的预训练而获得的，可以通..
复制链接

扫一扫