VirTex: Learning Visual Representations from Textual Annotations 论文笔记

最新推荐文章于 2025-04-25 23:56:44 发布

夜见流云

最新推荐文章于 2025-04-25 23:56:44 发布

阅读量488

点赞数 1

文章标签：自然语言处理计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41661897/article/details/119084061

版权

CVPR 2021

University of Michigan

论文及代码：

https://arxiv.org/pdf/2006.06666v2.pdf

https://github.com/kdexd/virtex

1. 摘要

目前许多方法是用无监督学习的方法在大规模的无标签图片上进行预训练。相反，文章则希望从少量的图片中学习高质量的视觉表示。文章用图片描述来学习视觉特征（预训练）。然后用于下游任务包括图片分类，目标检测，实体分割。最终在所有任务上都取得好的效果，而该方法使用的图片数量仅为对比的1/10.

2. 特点

文章创新在于与众不同的预训练方法，与现在流行的无监督大规模预训练方法形成对比，给出了新的预训练方法的一种可选方案。

这种方法使用更少的预训练数据、降低预训练成本，同时也获得了非常好的效果。

3. 方法

---------- 预训练 --------

训练目标：将图片描述任务作为预训练，学习图片的视觉特征用于下游任务。（大部分是反过来的）
动机：图片描述包含更多的图片信息，可以学到更多的信息，包括：多目标（如猫、蛋糕）、属性（如橘黄色多猫）、动作（目标的关系，如盯着苹果）、空间布局（如猫在盘子旁边）。因此，该预训练方法可以学到更丰富有效的视觉特征。

两个模块：（如图，左边是视觉模块，中间是语言模块，右边是语言模块内部结构）

预训练包含两个模块：视觉模块和语言模块

视觉模块: ResNet-50

这个模块学习视觉特征，随机初始化（不用预训练好的模型）

经过ResNet-50后输出 $7*7*2048$ 的视觉特征 $v_1$ ，

$v_1$ 经过全连接层映射到目标大小的向量 $v_2$ ,

$v_2$ 的size为 $7*7*H$ ，其中 $H$ 为语言模块的隐藏层大小，如BERT-base为512。

（需要注意的是预训练的时候使用 $v_2$ 作为视觉特征输入到语言模块，而在训练下游任务时使用的是 $v_1$ 作为视觉特征）

语言模块：双向transformer

这里采用的是transformer的Decoder部分，输入为视觉特征，训练目标是生成图片描述。

双向生成：

从左向右：不断根据前面的词来预测后面的词（只能看到左边的词）

从右向左：与上面相反

文中提到为什么不采用BERT的masked方法进行生成，而用双向预测，原因是MLM每次只预测一小部分单词，效率低。

------------ 下游任务 ---------------

（这里只要视觉模块）两种方式：

1. 冻结模型，在视觉特征后加全连接层训练下游任务

2.不冻结模型，根据下游任务对模型进行微调

4. 实验&结论

文中做了很多实验，以及充分的对比分析。

在各个下游任务效果表现都很优秀，说明了文章方法的有效性。文中的目标不是学习图片描述而是视觉特征，但是图片描述的效果也是非常好的。

博客等级

码龄7年

8
原创

15
点赞

47
收藏

25
粉丝

关注

私信

热门文章

最新评论

手把手教你-python环境搭建-安装jupyter（windows）
L202311061106: 大佬，为什么你装完jupyter语言就自动是中文的啊？
python学习参考资料和网站--新手-小白-入门-如何学python-＞机器学习-＞深度学习
CSDN-Ada助手: 恭喜您写了第8篇博客！标题中的参考资料和网站对于学习Python的新手来说非常有价值。您的博客内容涵盖了从入门到机器学习再到深度学习的各个阶段，这对那些希望在Python领域不断进步的读者来说是一份宝贵的指南。在我看来，您的博客已经非常出色了。然而，如果您想进一步提升您的创作，我建议您可以考虑增加一些实际案例或者编程挑战，以帮助读者更好地理解和应用所学知识。同时，您也可以尝试分享一些您自己的学习心得和经验，这样可以更好地与读者进行互动和交流。再次祝贺您取得的成就，并期待您未来更多精彩的创作！请继续保持努力和谦虚的态度，我们都在支持您！
手把手教你-python环境搭建-安装jupyter（windows）
CSDN-Ada助手: 非常祝贺您写了第5篇博客！标题看起来非常吸引人，我对您的技术指导感到非常期待。在我看来，搭建python环境并安装jupyter在windows上是一个重要且有用的主题。您的博客一定会帮助到很多刚开始学习python的人。对于下一步的创作建议，我谦虚地建议您可以考虑分享一些高级的jupyter功能或者介绍一些常用的python库。感谢您的付出，期待看到更多精彩的博客！
ubuntu-22 安裝不同版本的jdk與切換
CSDN-Ada助手: 恭喜您写了一篇关于ubuntu-22安装不同版本的jdk与切换的博客。这篇博客对于使用ubuntu-22的用户来说非常实用和有价值。接下来，我建议您可以继续探索并分享关于ubuntu-22的其他实用技巧和经验，让更多的人受益于您的分享。期待您的下一篇博客！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
ubuntu22 重启后没有wifi模块解决方法--备忘
CSDN-Ada助手: 不知道 CS入门技能树是否可以帮到你：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。