FLIP:Scaling Language-Image Pre-training via Masking

FLIP是一种通过遮挡策略改进CLIP预训练效率的方法,能够在保持内存占用的同时,增加样本对比,从而实现训练速度与准确性的平衡。实验证明,FLIP在大量下游任务中表现出优于未遮挡基线的效果,并为扩大视觉-语言学习的研究提供了新方向。
摘要由CSDN通过智能技术生成

一句话总结

本文提出了Fast Language-Image Pre-training (FLIP),这是一种简单且更有效的训练CLIP的方法。

点击进入—>Transformer微信技术交流群
在这里插入图片描述

FLIP

在这里插入图片描述

Scaling Language-Image Pre-training via Masking

单位:Meta AI, FAIR(何恺明等人)

论文:https://arxiv.org/abs/2212.00794

我们的方法在训练过程中随机mask并删除了大部分图像patches。Masking允许我们在相同的wall-clock time内从更多的图像-文本对中学习,并在内存占用相似的情况下每次迭代对比更多的样本。

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值