原创/文 BFT机器人
研究论文地址:https://arxiv.org/abs/2212.00794
计算机视觉和深度学习领域大神何恺明携团队再发新作!论文围绕近来火热的CLIP(Contrastive Language-Image Pre-Training)模型展开研究,并提出了一种高效训练CLIP的图像处理新方法——FLIP(Fast Language-Image Pre-training)。
该方法在训练中对图像块进行大比例的随机Mask遮蔽,在有限的时间内从更多的image-text数据集中学习,并且在每次迭代对比更多样本的情况下,保持相似的内存占用率。何恺明团队在4亿对image-text的训练实验中,对训练准确度和训练速度进行了利弊权衡,FLIP无论是在准确性还是速度方面的表现均优于CLIP。在加速训练能力的推动下,何恺明团队还探索了扩展模型尺寸、数据集大小、训练周期,最终成果喜人。
方法示意
- 图像遮蔽:论文中采用的是ViT作为图像编码器,图像首先被划分为一个不重叠的网格,参考MAE随机地遮蔽掉大比例的区块(比例为50%、75%),这种方法可以将训练时间复杂度相应降低为原来的一半,甚至四分之一,且减少内存占用。关于MAE的详解可参考何恺明另一篇论文《Masked Autoencoders Are Scalable Vision Learners》。
- 文本遮蔽:同样的方法,还可以用于文本遮蔽上。当执行Mask时,研究人员仅对可见token进行编码处理,和BERT的处理机制不一样的是:采用Learned Mask Token进行替换。这种稀疏计算也能够在一定程度减少文本编码所需要的时长。但团队认为,因为文本编码器比较小,所带来的加速效果难以导致更好的均衡。
- 训练目标:Image/Text编码器采用对比损失进行训练优化。但和MAE不同的是,本文中的FLIP重建被遮蔽的图像内容,同时丢弃了解码器,由此取得了进一步的加速。
MAE架构
- 解除遮蔽:虽然编码器是在Masked图像上来实现预训练的,但是它仍然可以像MAE那样直接作用到无干扰的图像,此可作为对标的基线。为进一步降低因Mask而产生的分布差异,作者将Mask比例设为0并进行少量的连续预训练,这种处理方法可以使得训练时间和准确性达到良好的均衡。
训练过程
在训练的具体过程中,研究人员依据CLIP和OpenCLIP,做出了一些改变:
CLIP架构
- 图像编码器使用ViT,但在补丁嵌入后并未使用其余的图层规范,并且在图像编码的末端增添了GAP。
- 论文运用Non-AutoRegressive Transformer编码,并使用WordPiece算法。
- 将图像编码器与文本编码器的输出分别投射到相同的嵌入空间,再用LTP(Learnable Temperature Parameter)进行缩放,从而得到两者的Cosine相似度。
实验结果
从最终的实验结果来看,当mask为75%的时候,FLIP同基线模型CLIP的性能达到一致,训练速度却是CLIP的3.7倍!换句话说,假设CLIP完成一个周期的训练需要花费2500TPU-days,而FLIP仅需700TUP-days。
消融实验结果对比
ImageNet-1K分类数据集结果对比
实验结果告诉我们,FLIP能够在准确性和训练时间之间实现有利的权衡。在对4亿图像-文本对的实验中,FLIP提高了no-masking基线的准确性和速度。在大量downstream任务上,FLIP的性能明显优于在相同数据上训练的CLIP工作。
结语
据悉,何恺明已经连续三年CVPR达到最高引用量,论文内容均为研究监督学习领域,且都具备一个共同的特点,都是研究范式转换的一个节点,而不是固有研究范式中的新方法或新解释。既MoCo、SimSiam、MAE之后,这次的FLIP又会带来多大的影响力呢?
文章参考:
https://mp.weixin.qq.com/s/-vZvBDPjyv6CKRlQPSYehg
https://blog.csdn.net/xixiaoyaoww/article/details/128179973
论文原文pdf:请扫本公众号原文下方二维码
更多精彩内容请关注公众号:BFT机器人
(公众号后台回复“优惠活动”查看BFT机器人年终钜惠福利内容)
本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。