DeCLIP 论文阅读

最新推荐文章于 2024-06-12 23:59:48 发布

B1CK

最新推荐文章于 2024-06-12 23:59:48 发布

阅读量467

点赞数

分类专栏：论文笔记文章标签：论文阅读

本文链接：https://blog.csdn.net/qq_52038588/article/details/134365822

版权

35 篇文章 0 订阅

订阅专栏

DeCLIP:supervision exists everywhere:a data efficient contrastive language-image pre-training paradigm

在SLIP基础上新增一个文本域的自监督，即该论文使用图片自监督+文本自监督+两倍图像-三倍文本对的对比学习。

请添加图片描述

图像自监督框架：SimSam
文本自监督框架：MLM，每个句子中随机选择15%的单词，然后，80%的时间用【mask】替换单词，用10%的时间用随机token替换单词，用10%的时间不改变单词。最后得到语言模型对应的token域原始token进行交叉熵loss。
图像-文本模态：原始的 CLIP 不使用文本增强，仅使用随机方形裁剪图像增强，因此需要大量数据。deCLIP使用随机数据增强，相比于原始CLIP，该论文监督信息更多。
在嵌入空间中(具体来说是64K大小的队列)使用了Nearest-Neighbor获得相似性的文本信息。即，论文维护一个队列，在嵌入空间中使用最近邻检索得到一个最相似的文本描述。（隐式存在一对多，提供更好的监督信号，BLIP）

图片里灰色是原本的对比学习，绿的是自监督，橙色也是对比学习，蓝色是Nearest-Neighbor Supervision获得的最相似的文本和两个图片进行对比学习

在这里插入图片描述

https://zhuanlan.zhihu.com/p/585778761

关注