何恺明团队12页论文新作剑指AIGC！“新CLIP”只需一个trick，训练速度快3.7倍！性能不降反升...

QbitAl

于 2022-12-03 13:24:19 发布

阅读量2.4k

点赞数 3

文章标签：人工智能计算机视觉深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/QbitAI/article/details/128168477

版权

杨净艳艳发自凹非寺
量子位 | 公众号 QbitAI

何恺明团队又上新了。

这次，他们的成果围绕当下最火的AIGC背后的CLIP展开。

——只在该模型的极简结构上，施加了一个简单的mask，就让新模型的速度快了3.7倍。

同时，性能还可以做到不降反升。

团队表示，希望他们的工作能帮助未来视觉语言模型实现规模化。

这波，让大家直呼：不愧是何恺明，还是熟悉的味道啊～

是的，还是“大道至简”的feel。

就连论文也一如既往，短短12页，一行公式也没有。

一起来拜读吧。

引入类似MAE的mask

本文提出了一个用来训练CLIP的快速、简单且有效的方法FLIP。

Fast Language-Image Pre-training（快速文本-图像预训练方法），也是很直接了。

简单来说，就是基于原有的CLIP架构，对输入图像的那一侧，随机掩蔽图像区块，之后只对可见区块编码。

△原有CLIP架构

更直白来讲，对CLIP架构引入类似于MAE的思路，于是FLIP架构也就变成了这样。

这样一来，既可以减少计算量，提高训练效率，相同的时间可以进行更多图像-文本样本学习；每次迭代还能可对比更多样本，但保持相似的内存占用率。

具体来说，本文采用的是ViT作为图像编码器。

图像首先被划分为一个不重叠的网格，并随机地遮蔽掉大部分的区块。本文采用的遮蔽比例为50%、75%。随后ViT只对可区块编码，时间复杂度相应降低为原来的二分之一（50%），或者四分之一（75%）。

同样的方式还可以用到文本遮蔽上。不过研究者认为由于文本编码器比较小，带来的加速效果并不能带来整体的增益。

不过跟MAE不同的是，此次FLIP并没有对被遮蔽的图像内容重建，也没有解码器。

△MAE架构

因为他们发现，放弃解码器和重建可以产生更好的速度。虽然编码器在被遮蔽的图像上进行了预训练，但它可以直接应用在完整图像上。

相同性能，速度为3.7x

总的来看，采用了mask机制的FLIP相比CLIP，在准确性和训练时间上取得了平衡，即性能在训练时间大幅减少的情况下，不降反升。

——尤其是在mask程度高达50%和75%的情况下。

其中，当mask=75%时，FLIP达到和基线模型CLIP相同的性能时，训练速度是它的3.7x。

这也就意味着，CLIP花费大约2500 TPU-days训练完成时，FLIP可以大约节省1800 TPU-days。

这一结果在ImageNet-1K验证集上的Zero-shot transfer任务中得出，每个不同mask比例的模型都在LAION-400M上进行了6.4、12.8或32个epoch的训练，包含了4亿个图像-文本对。

接着，采用64k batch，50% mask比和unmasked微调的FLIP，在ImageNet-1K分类数据集上的三个主要指标上也获得了比CLIP更好的性能。

注：是比他们复现出来的CLIP更好，和原始CLIP还差一点，当然，两者数据集不一样。

而在基于各类数据集的大量下游任务中（包括零样本分类、文字/图片检索等），FLIP同样表现出了优势，且基本全线碾压了CLIP（见绿色高亮，几乎点满）。

最后，对于FLIP模型的scale up也是一大看点，结果可圈可点。

可以看到，当增加FLIP的模型大小和数据规模时，FLIP继续涨点，尤其增加模型大小时最为明显（最左）。不过单纯增加训练时长基本没用（最右）。

从下表我们还能看出，模型大小和数据规模一起增加，效果又上了一个新高度。证明大模型+大数据就是好使。

何恺明担任通讯作者

FLIP一共5位作者。

3位共同一作，都是FAIR研究工程师。其中：

Li Yanghao，本硕毕业于北京大学计算机科学专业，已发表多篇顶会；

Fan Haoqi，毕业于CMU机器人学院；

Hu Ronghang，本科毕业于清华，2020年博士毕业于UC伯克利。

通讯作者有两位：

何恺明和他的同事Christoph Feichtenhofer，拥有同等指导贡献。

One More Thing

值得一提的是，有细心的网友统计了近三年CVPR引用量最高的论文（截至2022年11月），分别是Moco（2020）、SimSiam（2021）、MAE（2022）。

而这三篇文章唯一的共同作者就是何恺明，其中两篇还是一作，且都是与自监督学习相关。据谷歌学术统计，目前他们的引用量分别为5224、1374、834。

恺明大神还是一如既往地稳定发挥呀~

对于他们团队的最新力作，你怎么看？

比如，为什么对图像patch进行了随机mask，反而让模型性能不降反升呢？

论文链接：
https://arxiv.org/abs/2212.00794
参考链接：
[1]https://mp.weixin.qq.com/s/SYrNQ64lby8Bi6sQKX7rCA
[2]https://kaiminghe.github.io/
[3]https://www.zhihu.com/question/570153050/answer/2784717398

— 完 —

MEET 2023 大会定档！

嘉宾全阵容公布

量子位「MEET2023智能未来大会」正式定档12月14日！嘉宾全阵容已于近日正式公布。

20位来自智能科技产业、科研、投资领域具有代表性企业的直接负责人，将在MEET大会上共同交流、思维碰撞。期待与大家共聚MEET2023！

点这里关注我 👇 记得标星噢 ~

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。