ViLT:Vision-and-Language Transformer Withoout Convolution or Region Supervision

但愿此生，从未邂逅

已于 2023-01-06 11:11:22 修改

阅读量311

点赞数

分类专栏：计算机视觉人工智能文章标签： transformer 深度学习人工智能

于 2022-12-14 09:16:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_56551150/article/details/128306421

版权

人工智能同时被 2 个专栏收录

10 篇文章 0 订阅

订阅专栏

计算机视觉

8 篇文章 0 订阅

订阅专栏

ViLT:Vision-and-Language Transformer Withoout Convolution or Region Supervision

如今，在多模态领域，同样采取先预训练，再进行微调的方式。

解决问题

视觉和语言预训练 (VLP) 提高了各种联合视觉和语言下游任务的性能。之前的工作发现，在视觉方面网络的模型越复杂越好，最终的结果就会越好。即当前的 VLP 方法严重依赖图像特征提取过程，其中大部分涉及区域监督（例如，对象检测）和卷积架构（例如，ResNet）。
作者认为此前的工作存在以下两个问题：
(1) 效率/速度方面存在问题，简单地提取输入特征需要比多模式交互步骤更多的计算；
(2) 表达能力，因为它是视觉嵌入器及其预定义视觉词汇表达能力的上限。仅仅用一个预训练好的模型去抽取特征，模型的表达能力是受限的，由于不是端到端的学习，可能抽取的特征非最优解。
为了解决上述问题，作者提出了一个极简化的模型。
在这里插入图片描述

为什么要选择目标检测？

目标检测是天然的离散化的过程，并且有明确的语义信息，这正是transformer所需要的。
下游任务往往和物体有直接的联系，即对物体有依赖性。
虽然大部分数据集可以事先通过目标检测抽取特征。事实上，速率是个十分严重的问题，因为当你在真实世界中，去做这种应用的时候，数据是每时每秒在实时生成的，对于新数据，再做推理的时候，就没有那么多时间来做这种目标检测。
所以，重心就转移到怎么设计一个更轻量更简单的图像特征抽取的方法。

研究方法和创新点

在这里插入图片描述

ViLT 是迄今为止最简单的视觉和语言模型架构，因为它委托转换器模块提取和处理视觉特征，而不是单独的深度视觉嵌入器。这种设计本质上会带来显着的运行时间和参数效率。
第一次，我们在不使用区域特征或一般的深度卷积视觉嵌入器的情况下，在视觉和语言任务上取得了出色的表现。
此外，我们首次凭经验表明，在 VLP 训练方案中前所未有的全词屏蔽和图像增强进一步推动了下游性能。

模态融合方法

single-stream
将image和text输入直接concatenation起来。
dual-stream
对于image和text，各自先各自将自己的输入进行一些处理，充分挖掘单独模态里包含的信息，然后再去在之后的某一个时间点做一个融合。

特征抽取

region features
grid features
patch projection

流程和模块

在这里插入图片描述
single-stream

损失函数

Image Text Matching——负对数似然损失+图像文本对齐分数
Masked Language Modeling

预训练数据集

在这里插入图片描述

实验结果

在这里插入图片描述

但愿此生，从未邂逅

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ViLT:Vision-and-Language Transformer Withoout Convolution or Region Supervision

如今，在多模态领域，同样采取先预训练，再进行微调的方式。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。