Abstract&Introduction&Related Work
-
研究任务
- 多模态建模
-
已有方法和相关工作
- 之前的方法在图片-文本-模态融合上的表达能力(或者说使用的计算资源)并不对称,本文列出了之前的经典方法和本工作表达不同模态上使用资源的对比
-
面临挑战
- 图像特征抽取速度太慢
-
创新思路
- 使用VIT的方法与思想,将图片打成patch,然后使用简单的linear层进行特征抽取
-
实验结论
- 对比之前的sota,抽取图片特征的时间从810ms降低到了0.4ms,加速了两千倍
- 速度达到最快,并且保持不错的效果
ViLT
每个token使用position embedding,并且标记所属的模态,将三个值直接相加
- 使用whole word masking
- 使用RandAugment,但是取消掉 color inversion和cutout,因为这两者会导致文本和图像语义不匹配导致训练效果不好
- 使用Image Text Matching Loss
- Masked Language Modeling Loss
一些公式
Experiments
Conclusions
在本文中,我们提出了一种最小VLP架构,Vision和Langauge Transformer(ViLT)
ViLT对于配备了大量卷积视觉嵌入网络(例如,更快的R-CNN和Resnet)的竞争对手来说是一个优势。我们要求未来在VLP方面的工作更多地关注transformer模块内部的模态交互,而不是仅仅为单模态嵌入器而卷的军备竞赛
尽管如此,ViLT-B/32更像是一个概念证明,没有卷积和区域监督的有效VLP模型仍然可以胜任。最后,我们指出了一些可能添加到ViLT家族的因素
Scalability
没什么好说的,越大越猛大家都懂
Masked Modeling for Visual Inputs
很好的想法,后面BEiT和MAE都做出来了,而且成为目前大火的方向
Augmentation Strategies
同样很有用的方法
Remark
一篇比较有启发的paper,可以称之为很novel,虽然效果没有达到sota,但是并不影响其对后续工作的启发性,在展望中的三个方向都成为现在的热门