Raki的读paper小记：ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

最新推荐文章于 2024-01-25 01:54:28 发布

爱睡觉的Raki

最新推荐文章于 2024-01-25 01:54:28 发布

阅读量428

点赞数

分类专栏： Multimodal 读paper 文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/raki_j/article/details/126664657

版权

读paper 同时被 2 个专栏收录

83 篇文章 5 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

Abstract&Introduction&Related Work

研究任务
- 多模态建模
已有方法和相关工作
- 之前的方法在图片-文本-模态融合上的表达能力（或者说使用的计算资源）并不对称，本文列出了之前的经典方法和本工作表达不同模态上使用资源的对比
面临挑战
- 图像特征抽取速度太慢
创新思路
- 使用VIT的方法与思想，将图片打成patch，然后使用简单的linear层进行特征抽取
实验结论
- 对比之前的sota，抽取图片特征的时间从810ms降低到了0.4ms，加速了两千倍
- 速度达到最快，并且保持不错的效果

ViLT

每个token使用position embedding，并且标记所属的模态，将三个值直接相加

使用whole word masking
使用RandAugment，但是取消掉 color inversion和cutout，因为这两者会导致文本和图像语义不匹配导致训练效果不好
使用Image Text Matching Loss
Masked Language Modeling Loss

一些公式

Experiments

在这里插入图片描述

在这里插入图片描述

Conclusions

在本文中，我们提出了一种最小VLP架构，Vision和Langauge Transformer（ViLT）
ViLT对于配备了大量卷积视觉嵌入网络（例如，更快的R-CNN和Resnet）的竞争对手来说是一个优势。我们要求未来在VLP方面的工作更多地关注transformer模块内部的模态交互，而不是仅仅为单模态嵌入器而卷的军备竞赛
尽管如此，ViLT-B/32更像是一个概念证明，没有卷积和区域监督的有效VLP模型仍然可以胜任。最后，我们指出了一些可能添加到ViLT家族的因素

Scalability

没什么好说的，越大越猛大家都懂

Masked Modeling for Visual Inputs

很好的想法，后面BEiT和MAE都做出来了，而且成为目前大火的方向

Augmentation Strategies

同样很有用的方法

Remark

一篇比较有启发的paper，可以称之为很novel，虽然效果没有达到sota，但是并不影响其对后续工作的启发性，在展望中的三个方向都成为现在的热门

爱睡觉的Raki

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。