一句话总结
本文提出了Fast Language-Image Pre-training (FLIP),这是一种简单且更有效的训练CLIP的方法。
点击进入—>Transformer微信技术交流群
FLIP
Scaling Language-Image Pre-training via Masking
单位:Meta AI, FAIR(何恺明等人)
论文:https://arxiv.org/abs/2212.00794
我们的方法在训练过程中随机mask并删除了大部分图像patches。Masking允许我们在相同的wall-clock time内从更多的图像-文本对中学习,并在内存占用相似的情况下每次迭代对比更多的样本。