追求极致速度，极简多模态预训练模型ViLT，推理速度比UNITER快60倍！（ICML2021）...

最新推荐文章于 2023-06-08 07:45:25 发布

我爱计算机视觉

最新推荐文章于 2023-06-08 07:45:25 发布

阅读量1.6k

点赞数

文章标签：大数据算法 python 计算机视觉机器学习

本文链接：https://blog.csdn.net/moxibingdao/article/details/122532002

版权

关注公众号，发现CV技术之美

▊ 写在前面

视觉和语言预训练(VLP)提高了各种联合视觉和语言下游任务的表现。然而，当前的VLP方法严重依赖于图像特征提取的过程，其中大部分涉及区域监督(例如，目标检测)和卷积结构(例如，ResNet)。他们存在以下两方面的问题：

1）效率/速度 ，提取输入特征比多模态交互拥有更多的计算量；

2）表现力 ，视觉embedder的能力和预定义的视觉词汇决定了整个模型性能的上限。

在这篇文章中，作者提出了一个更小的视觉与语言Transformer(ViLT)，视觉输入的处理被极大地简化为了无卷积的方式。因此，ViLT可以比以前的VLP模型快几十倍，但依旧可以获得相似甚至更好的性能。

▊ 1. 论文和代码地址

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

论文地址：https://arxiv.org/abs/2102.03334

代码地址：https://github.com/dandelin/vilt

▊ 2. Motivation

先预训练再微调（pre-train-and-ﬁne-tune） 的方案已经扩展到视觉和语言的联合领域，从而产生了视觉语言预训练(Vision-and-Language Pre-training (VLP)) 模型。这些模型通过图像文本匹配（ITM） 和掩蔽语言建模（MLM） 目标进行了预训练，然后在下游的视觉语言任务上进行微调，实现更好的性能。

要将图像送入到VLP模型中，首先需要对图像进行embed，形成一个token序列。大多数VLP采用在Visual Genome数据集上预训练的目标检测器来提取视觉特征。Pixel-Bert是这一趋势的一个例外，它使用了在ImageNet分类上进行预训练的ResNet模型，用grid特征来代替region特征。

到目前为止，许多VLP研究都集中在通过增加视觉embedder的能力来提高性能。由于区域特征通常在训练时被提前缓存，从而减轻了特征提取的负担，因此在实验中往往忽略了视觉embedder的缺点。然而，这些限制在实际的应用中仍然是显而易见的，因为所有的图片都必须经历一个缓慢的视觉特征提取过程。

为此，作者将重点转移到

最低0.47元/天解锁文章

我爱计算机视觉

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
追求极致速度，极简多模态预训练模型ViLT，推理速度比UNITER快60倍！（ICML2021）...

关注公众号，发现CV技术之美▊写在前面视觉和语言预训练(VLP)提高了各种联合视觉和语言下游任务的表现。然而，当前的VLP方法严重依赖于图像特征提取的过程，其中大部分涉及区域监督(例如，...
复制链接

扫一扫