提速3.7倍！何恺明团队再发新作，更快更高效的FLIP模型：通过Masking扩展语言-图像预训练（附论文原文下载）-CSDN博客

本文链接：https://blog.csdn.net/Hinyeung2021/article/details/128382634

原创/文 BFT机器人

研究论文地址：https://arxiv.org/abs/2212.00794

计算机视觉和深度学习领域大神何恺明携团队再发新作！论文围绕近来火热的CLIP（Contrastive Language-Image Pre-Training）模型展开研究，并提出了一种高效训练CLIP的图像处理新方法——FLIP（Fast Language-Image Pre-training）。

该方法在训练中对图像块进行大比例的随机Mask遮蔽，在有限的时间内从更多的image-text数据集中学习，并且在每次迭代对比更多样本的情况下，保持相似的内存占用率。何恺明团队在4亿对image-text的训练实验中，对训练准确度和训练速度进行了利弊权衡，FLIP无论是在准确性还是速度方面的表现均优于CLIP。在加速训练能力的推动下，何恺明团队还探索了扩展模型尺寸、数据集大小、训练周期，最终成果喜人。

方法示意

图像遮蔽：论文中采用的是ViT作为图像编码器，图像首先被划分为一个不重叠的网格，参考MAE随机地遮蔽掉大比例的区块(比例为50%、75%)，这种方法可以将训练时间复杂度相应降低为原来的一半，甚至四分之一，且减少内存占用。关于MAE的详解可参考何恺明另一篇论文《Masked Autoencoders Are Scalable Vision Learners》。
文本遮蔽：同样的方法，还可以用于文本遮蔽上。当执行Mask时，研究人员仅对可见token进行编码处理，和BERT的处理机制不一样的是：采用Learned Mask Token进行替换。这种稀疏计算也能够在一定程度减少文本编码所需要的时长。但团队认为，因为文本编码器比较小，所带来的加速效果难以导致更好的均衡。
训练目标：Image/Text编码器采用对比损失进行训练优化。但和MAE不同的是，本文中的FLIP重建被遮蔽的图像内容，同时丢弃了解码器，由此取得了进一步的加速。

MAE架构

解除遮蔽：虽然编码器是在Masked图像上来实现预训练的，但是它仍然可以像MAE那样直接作用到无干扰的图像，此可作为对标的基线。为进一步降低因Mask而产生的分布差异，作者将Mask比例设为0并进行少量的连续预训练，这种处理方法可以使得训练时间和准确性达到良好的均衡。

训练过程

在训练的具体过程中，研究人员依据CLIP和OpenCLIP，做出了一些改变：

CLIP架构

图像编码器使用ViT，但在补丁嵌入后并未使用其余的图层规范，并且在图像编码的末端增添了GAP。
论文运用Non-AutoRegressive Transformer编码，并使用WordPiece算法。
将图像编码器与文本编码器的输出分别投射到相同的嵌入空间，再用LTP（Learnable Temperature Parameter）进行缩放，从而得到两者的Cosine相似度。