ViLT_Vision-and-Language Transformer Without Convolution or Region Supervision组会稿

背景知识

  预训练模型后再finetune已经在cv和nlp领域证明了其可行性,同样的,这种方式在视觉和语言结合的多模态领域也能够带来一定的提升。预训练的方式可以是有监督和自监督。比如说,谷歌很多的图像分类任务都是在自己的巨大数据集JFT上预训练之后,再在imagenet上finetune。而nlp领域,bert类模型都是在大量网络上爬取的语料上进行自监督的方法预训练。目前,多模态领域也已经有了很多研究关注预训练后再在具体任务上进行微调,也证明了这种方法的有效性。(VLP代表的就是vision and language pretrain.)

VLP

  作者针对目前已有的VLP方法进行了总结,分析了之前的方法,发现文本embedding使用的方式都是使用一个简单的linear embedding,而视觉embedding的方法有以下几种方法:一种是目标检测之后,使用region proposal的方式从cnn提取出来的特征中提取出物体的特征,第二种是直接使用cnn提取出来的特征,第三种也是作者提出的方法,仿照ViT的方式,将图像分割为patch后使用linear embedding转化为特征。使用这种方式的话,视觉特征提取的网络backbone就比较轻量。速度相对也会比其他几种方法更快。
  此外,作者还将这几种方法抽象出了更简易的表示方式。分为以下四个种类:1.视觉特征提取模块的计算消耗大于文本的计算消耗大于融合的计算资源。2.视觉特征提取模块和文本特征提取模块的特征提取相等并大于融合的计算资源。3.视觉特征的提取计算资源大于融合消耗的计算资源大于文本特征提取的计算资源。4最后一种,也就是作者提出的,融合消耗的计算资源大于文本和视觉特征提取消耗的计算资源。
  在关键信息提取任务中,layoutlanguage

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值