首次证实白盒Transformer可扩展性!马毅团队新作CRATE-α:可解释性和性能稳步提升!...

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

6c1287fff6058537e32c62e053e649d1.jpeg

转载自:新智元 | 编辑:LRS

【导读】CRATE-α是一种新型Transformer架构变体,通过设计改进提升了模型的可扩展性、性能和可解释性,CRATE-α-Base在ImageNet分类任务上的性能显著超过了之前最好的CRATE-B模型,其性能会随着模型和数据集规模扩大而继续提升。

在过去的几年里,Transformer架构在自然语言处理(NLP)、图像处理和视觉计算领域的深度表征学习中取得了显著的成就,几乎成为了AI领域的主导技术。

然而,虽然Transformer架构及其众多变体在实践中取得了巨大成功,但其设计大多是基于经验的,并没有严格的数学解释,也在一定程度上限制了研究人员的思路,无法开发出更高效、更具可解释性的Transformer新变体。

为了填补这一空白,马毅教授团队曾发布过白盒Transformer模型CRATE,其架构的每一层都是通过数学推导得到的,可以完全解释为展开的梯度下降迭代;此外,CRATE学习到的模型和特征在语义上也比传统的Transformer模型具有更好的可解释性,例如,即使模型仅在分类任务上进行训练,可视化图像的特征也能自然地形成该图像的零样本分割。

然而,到目前为止,CRATE的应用规模仍然相对有限,CRATE-Large只包含77.6M参数,与标准Vision Transformer(ViTs)的22B参数量形成了鲜明对比。

最近,加利福尼亚大学圣克鲁斯分校和伯克利分校的研究团队联合提出了CRATE-α,首次探索了不同规模的CRATE用于视觉任务(从Tiny到Huge)时的模型性能,研究人员在CRATE架构设计中对稀疏编码块进行了策略性但最小化的(strategic yet minimal)修改,并设计了一种轻量级的训练方法,以提高CRATE的可扩展性。

992056f411bc3c72523c2edf3328d16d.png

论文链接:https://arxiv.org/pdf/2405.20299

项目链接:https://rayjryang.github.io/CRATE-alpha/

具体来说,CRATE中的ISTA模块是限制进一步扩展的因素,为了克服这一限制,CRATE-α主要做了三个修改:

1. 大幅扩展了通道,对稀疏编码块进行过参数化(overparameterized),使用过完备字典(overcomplete dictionary)对token表征进行稀疏化。

2. 解耦了关联矩阵,在稀疏编码块的最后一部中引入一个解耦字典(decoupled dictionary)

3. 添加了残差连接。

实验结果证明,CRATE-α能够随着模型尺寸和训练数据集的增大而扩展,性能可以持续提升。

例如,CRATE-α-B在ImageNet分类任务上的性能显著超过了之前最好的CRATE-B模型,准确率提高了3.7%,达到了83.2%;进一步对模型进行扩展时,CRATE-α-L在ImageNet分类任务上达到了85.1%的准确率。

值得注意的是,模型性能的提升是在保持甚至增强了CRATE模型可解释性的同时实现的,因为更大尺寸的CRATE-α模型学到的token表征能够生成更高质量的无监督图像分割。

实验结果

从基础尺寸(base)到大尺寸(large)

ImageNet-21K是一个广泛用于图像识别和分类任务的大型数据集,文中用于训练的数据集版本包含19,000个类别和大约1300万张图片,由于数据丢失,比标准数据集(包含21,000个类别和大约1400万张图片)的数据量要少一点。

在预训练时,从数据集中随机选取1%作为验证集。

预训练完成后,在ImageNet-1K数据集上对模型进行微调,其中ImageNet-1K是一个更小的子集,包含1000个类别,通常用于模型的最终评估。在微调阶段,模型会针对这1000个类别进行更精细的训练,以提高其在特定任务上的性能。

最后,在ImageNet-1K的验证集上评估模型的性能。

3ea6e0dfa5bc18ba462332c72c5f5636.png

研究人员对比了在32、16和8像素块大小下的CRATE-α-B和CRATE-α-L,从实验结果中可以看到,CRATE-α-L在所有像素块大小上都取得了显著的改进,但从CRATE-B增加到CRATE-L只能带来0.5%的性能提升,表明了收益递减的情况,证明了CRATE-α模型的可扩展性显著优于普通CRATE

b66685899b41bd2c372f48b2b3a7730f.png

同时,预训练阶段的训练损失显示,随着模型容量的增加,训练损失的趋势可预测地得到改善。

从大(large)到巨大(huge)

多模态数据集DataComp1B包含14亿图文对,可以提供足够的数据来训练和扩展模型。

研究人员采用对比学习的方法来训练CRATE-α,不仅能够利用上庞大的图文对数据集,还能在模型尺寸从大到巨大的提升过程中,观察到显著的性能提升。

然而,直接训练一个类似CLIP的模型需要巨大的计算资源,研究人员采用了优化后的CLIPA协议,可以在减少计算资源消耗的同时,可以保持与CLIP相当的性能。

最后,为了评估CRATE-α模型的性能,研究人员采用了零样本学习的方法,在ImageNet-1K数据集上测试模型的准确率,该方法可以有效地评估模型在面对未见过类别数据时的泛化能力,提供了一个衡量模型可扩展性和实用性的重要指标。

04cc43246c8685cdc3b71fb35ee7f015.png

从实验结果中可以看到,

1. 模型尺寸的影响:CRATE-α-CLIPA-L/14在预训练和微调阶段的ImageNet-1K零样本准确率上,分别比CRATE-α-CLIPA-B/16高出11.3%和9.0%,表明学习到的表征质量可能受到模型尺寸的限制,即增加模型尺寸可以利用上更多数据。

2. 扩展模型尺寸的益处:当继续增加模型尺寸时,可以观察到CRATE-α-CLIP-H/14从更大的训练数据集中继续获益,在预训练和微调阶段的ImageNet-1K零样本准确率上,分别比CRATE-α-CLIP-L/14高出3.1%和2.5%,证明了CRATE-α模型的强大可扩展性。

3. 性能上限的探索:为了探索性能的上限,研究人员从头开始训练了一个标准的ViT-CLIPA-H/14,并观察到了性能的提升。

节省计算资源的扩展策略

在追求模型扩展的效率和计算资源的优化方面,研究人员发现,通过调整预训练阶段的图像token序列长度,可以在极大减少计算资源消耗的同时,保持模型性能。

具体来说,研究人员尝试了一种新的方法:在预训练时使用较长序列长度的CRATE-α-L/32,在微调时切换到较短序列长度的CRATE-α-L/14或CRATE-α-L/8,不仅大幅度降低了预训练阶段的计算成本,而且在微调后,模型在ImageNet-1K数据集上的准确率仍然非常接近全尺寸模型的性能。

例如,使用CRATE-α-L/32进行预训练,然后微调到CRATE-α-L/14,可以节省约70%的计算资源,而准确率只是略有下降;更进一步,当从CRATE-α-L/32预训练后微调到CRATE-α-L/8时,仅使用了原模型所需训练时间的10%,准确率依然达到了84.2%,与全尺寸模型的85.1%相差无几。

上述结果表明,通过精心设计预训练和微调阶段的策略,可以在资源有限的情况下,有效地扩展CRATE-α模型。

CRATE-α的语义可解释性得到提升

除了可扩展性,文中还研究了不同模型大小的CRATE-α的可解释性,使用MaskCut来验证和评估模型捕获的丰富语义信息,包括定性和定量结果。

d32fe0a9e45ad1a519d3a4693db1ccb0.png

为CRATE-α、CRATE和ViT在COCO val2017上提供了分割可视化后,可以发现,CRATE-α模型保持甚至提高了CRATE的(语义)可解释性优势。

8be4d1dc888c8850a08ed6da5cc5af9c.png

在COCO val2017上的定量评估结果显示,当为CRATE-α扩展模型大小时,大型模型在目标检测和分割方面比base模型有所提高。

参考资料:

https://arxiv.org/pdf/2405.20299

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值