Scaling Language-Image Pre-training via Masking

在这里插入图片描述
论文链接:嘻嘻哈哈

Abstract

FLIP是一种简单且高效训练CLIP的方法,它在训练过程中去除了大量的图像补丁
FLIP方法比CLIP方法训练得更快,更准确

Introduction

text masking带来的增益很小,因为文本编码器较小,文本序列较短
CLIP训练非常耗时,收到MAE稀疏计算的启发,随机的去除了大部分图像补丁,提出的FLIP可达到他3.7倍的速度,并且精度类似甚至更优
通过引入masking,可以在相同的挂钟训练时间下,看到更多的样本对,在相似的内存占用下,每批次可以比较更多的样本对
model scaling,data scaling都能提高精准率,schedule scaling几乎没有增益,且同时进行model+data是优于分开的总和

Method

在这里插入图片描述

Image masking

作者采用视觉变压器(ViT)作为图像编码器。首先将图像划分为不重叠的小块网格。随机屏蔽掉很大一部分(例如,50%或75%)的补丁

Text masking

因为文本编码器较小,文本序列较短,总的速度增益是微不足道的

Objective

大量的负样本对于图像的自监督对比学习至关重要

Unmasking

虽然编码器是在遮罩图像上进行预训练的,但它可以直接应用于完整的图像而不做任何改变,为了缩小掩蔽造成的分布差距,我们可以将掩蔽率设置为0%,继续进行小步数的预训练。这种Unmasking的调优策略产生了更有利的精度/时间权衡
在这里插入图片描述

Experiment and Conclusion

在各种各样的场景中,FLIP明显优于其CLIP对应物

在某些情况下,数据差距很大。正如在许多下游任务中观察到的那样,WIT数据和LAION数据之间的差异可能会造成很大的系统差距。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值