ViLT_Vision-and-Language Transformer Without Convolution or Region Supervision组会稿

最新推荐文章于 2024-04-21 19:34:57 发布

Tyyy`

最新推荐文章于 2024-04-21 19:34:57 发布

阅读量309

点赞数

分类专栏：论文

本文链接：https://blog.csdn.net/soulesstitan/article/details/118424002

版权

背景知识

预训练模型后再finetune已经在cv和nlp领域证明了其可行性，同样的，这种方式在视觉和语言结合的多模态领域也能够带来一定的提升。预训练的方式可以是有监督和自监督。比如说，谷歌很多的图像分类任务都是在自己的巨大数据集JFT上预训练之后，再在imagenet上finetune。而nlp领域，bert类模型都是在大量网络上爬取的语料上进行自监督的方法预训练。目前，多模态领域也已经有了很多研究关注预训练后再在具体任务上进行微调，也证明了这种方法的有效性。(VLP代表的就是vision and language pretrain.)

VLP

作者针对目前已有的VLP方法进行了总结，分析了之前的方法，发现文本embedding使用的方式都是使用一个简单的linear embedding，而视觉embedding的方法有以下几种方法：一种是目标检测之后，使用region proposal的方式从cnn提取出来的特征中提取出物体的特征，第二种是直接使用cnn提取出来的特征，第三种也是作者提出的方法，仿照ViT的方式，将图像分割为patch后使用linear embedding转化为特征。使用这种方式的话，视觉特征提取的网络backbone就比较轻量。速度相对也会比其他几种方法更快。
此外，作者还将这几种方法抽象出了更简易的表示方式。分为以下四个种类：1.视觉特征提取模块的计算消耗大于文本的计算消耗大于融合的计算资源。2.视觉特征提取模块和文本特征提取模块的特征提取相等并大于融合的计算资源。3.视觉特征的提取计算资源大于融合消耗的计算资源大于文本特征提取的计算资源。4最后一种，也就是作者提出的，融合消耗的计算资源大于文本和视觉特征提取消耗的计算资源。
在关键信息提取任务中，layoutlanguage

最低0.47元/天解锁文章

Tyyy`

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ViLT_Vision-and-Language Transformer Without Convolution or Region Supervision组会稿

背景知识预训练模型后再finetune已经在cv和nlp领域证明了其可行性，同样的，这种方式在视觉和语言结合的多模态领域也能够带来一定的提升。预训练的方式可以是有监督和自监督。比如说，谷歌很多的图像分类任务都是在自己的巨大数据集JFT上预训练之后，再在imagenet上finetune。而nlp领域，bert类模型都是在大量网络上爬取的语料上进行自监督的方法预训练。目前，多模态领域也已经有了很多研究关注预训练后再在具体任务上进行微调，也证明了这种方法的有效性。(VLP代表的就是vision and l
复制链接

扫一扫

专栏目录