Raki的读paper小记:ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

Abstract&Introduction&Related Work

  • 研究任务

    • 多模态建模
  • 已有方法和相关工作

    • 之前的方法在图片-文本-模态融合上的表达能力(或者说使用的计算资源)并不对称,本文列出了之前的经典方法和本工作表达不同模态上使用资源的对比
    • 在这里插入图片描述
  • 面临挑战

    • 图像特征抽取速度太慢
  • 创新思路

    • 使用VIT的方法与思想,将图片打成patch,然后使用简单的linear层进行特征抽取
  • 实验结论

    • 对比之前的sota,抽取图片特征的时间从810ms降低到了0.4ms,加速了两千倍
    • 速度达到最快,并且保持不错的效果
      在这里插入图片描述

ViLT

每个token使用position embedding,并且标记所属的模态,将三个值直接相加

  • 使用whole word masking
  • 使用RandAugment,但是取消掉 color inversion和cutout,因为这两者会导致文本和图像语义不匹配导致训练效果不好
  • 使用Image Text Matching Loss
  • Masked Language Modeling Loss
    在这里插入图片描述
    一些公式
    在这里插入图片描述

Experiments

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

Conclusions

在本文中,我们提出了一种最小VLP架构,Vision和Langauge Transformer(ViLT)
ViLT对于配备了大量卷积视觉嵌入网络(例如,更快的R-CNN和Resnet)的竞争对手来说是一个优势。我们要求未来在VLP方面的工作更多地关注transformer模块内部的模态交互,而不是仅仅为单模态嵌入器而卷的军备竞赛
尽管如此,ViLT-B/32更像是一个概念证明,没有卷积和区域监督的有效VLP模型仍然可以胜任。最后,我们指出了一些可能添加到ViLT家族的因素

Scalability

没什么好说的,越大越猛大家都懂

Masked Modeling for Visual Inputs

很好的想法,后面BEiT和MAE都做出来了,而且成为目前大火的方向

Augmentation Strategies

同样很有用的方法

Remark

一篇比较有启发的paper,可以称之为很novel,虽然效果没有达到sota,但是并不影响其对后续工作的启发性,在展望中的三个方向都成为现在的热门

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值