江大白 | CLIP-Mamba开源,首次提出CLIP训练,仅1/5参数就达到Sort性能(附论文及源码)

本文来源公众号“江大白”,仅用于学术分享,侵权删,干货满满。

原文链接:CLIP-Mamba开源,首次提出CLIP训练,仅1/5参数就达到Sort性能(附论文及源码)

以下文章来源于微信公众号:AI视界引擎

作者:AI引擎

链接:https://mp.weixin.qq.com/s/nVRA0JlkOmSUXpaub1VPTg

0 导读

作者首次尝试利用对比语言-图像预训练来训练可迁移的Mamba模型,并在大量数据集上进行了全面评估。作者发现,Mamba模型与视觉Transformer模型在零样本分类任务上表现相当,但参数更有效。在测试中,Mamba模型在处理对比度或高通滤波的OOD图像时表现出色。

这份技术报告介绍了首次尝试利用对比语言-图像预训练(CLIP)来训练一个可迁移的Mamba模型。作者已经训练了不同规模的Mamba模型,并在26个零样本分类数据集和16个分布外(OOD)数据集上对这些模型进行了全面评估。作者的研究发现,拥有6700万参数的Mamba模型与拥有3.07亿参数的视觉 Transformer (ViT)模型在零样本分类任务上表现相当,突显了Mamba模型的参数效率。在OOD泛化测试中,基于Mamba的模型在OOD图像对比度或经过高通滤波的条件下表现出色。然而,Hessian分析表明,与基于ViT的模型相比,Mamba模型具有更尖锐、更非凸的景观,这使得它们更难以训练。

论文链接:https://arxiv.org/pdf/2404.19394

代码链接:https://github.com/raytrun/mamba-clip

1 Introduction

基础模型,即在对大量数据进行预训练并在特定下游任务中进行适配的模型,已成为机器学习领域内一个充满活力的研究方向。在过去的六年里,Transformers已经成为支撑基础模型的主要架构,跨越了众多领域。Transformer架构的核心是自注意力机制,它复杂地促进了每个标记对之间的信息流动。这一机制因其对情境学习的不可或缺的作用、增强推理能力以及提升分布外(OOD)鲁棒性而受到高度评价。然而,自注意力机制的二次计算需求带来了重大的可扩展性挑战,特别是在窗口长度方面,因此成为实际应用中的一个重大障碍。作为回应,大量研究致力于设计能在亚二次时间内运行的有效的自注意力机制。尽管这些进展,但这些创新往往在性能上不如二次时间复杂度的Transformer。

选择性状态空间模型(Mamba)最近作为下一代基础模型 Backbone 的有力候选者出现,因为它们在享受线性时间复杂度的同时,比Transformers展现出更好的扩展规律。在过去的几个月里,Mamba模型在包括但不限于自然语言处理,图像处理,视频分析,时间序列预测,图论应用,点云处理,推荐系统,强化学习,以及医疗诊断在内的一系列关键领域中展示了卓越的成功。聚焦于计算机视觉,大量基于Mamba的模型出现,并在图像分类,目标检测,分割,图像恢复,以及3D重建等方面设定了新的最先进基准。尽管这些成就,当前的基于Mamba的模型是在一组固定的预定目标类别上进行训练的,缺乏零样本泛化能力。要弥补这一差距,需要整合大规模语言-图像预训练,这是基于Mamba的基础模型发展的一个不可或缺的组成部分。

这份技术报告首次尝试使用对比语言-图像预训练来训练Mamba模型。具体来说,本技术报告的结论总结如下:

  • CLIP-Mamba模型: 作者发布了开源的CLIP-Mamba模型。具有5000万参数的Mamba模型超越了8400万参数的ViT模型的表现,而具有6700万参数的Mamba模型在26个零样本分类数据集上的表现等同于3.07亿参数的ViT模型。这些结果强调了Mamba模型的效率和有效性。

  • OOD泛化评估: 作者在16个OOD数据集上的广泛评估表明,Mamba模型一致性地优于ViT模型。基于Mamba的模型在OOD图像对比度条件下或受到高通滤波处理时显示出异常的鲁棒性。

  • 景观评估: 通过可视化Hessian,作者深入探讨了Mamba模型的训练景观。作者的发现表明,与ViT模型相比,Mamba模型展现出更加“非凸”和更尖锐的景观,这表明在优化方面存在更大的挑战。

2 Experiments and Analysis

在本节中,作者针对CLIP Mamba模型与CLIP Vision Transformer模型在零样本分类、OOD泛化和Hessian谱方面进行了全面的实验和分析。

2.1 Zero-shot Classification

在作者的研究中,作者训练了一系列模型,包括VMamba-30M、VMamba-50M、VMamba-89M,以及Simba-L 66.6M,使用了标准的CLIP预训练流程。这些模型的零样本性能在多种数据集上进行系统评估,并在表1中进行了总结。

值得注意的是,在大多数考察的数据集中,50M参数的Mamba-S模型的表现优于84M参数的ViT-B模型。在考虑性能巅峰时,结果各占一半;66.6M参数的Simba-L在一半的数据集中领先,而307M参数的ViT-L在剩余的一半中占据主导。

2.2 OOD Robustness and Comparison with Humans

基于Geirhos等人(2021年)提出的方法论,作者深入进行了涉及VMamba、Simba、ViTs以及人类在16个分布外(OOD)数据集上的性能比较。这一全面比较的结果在图1中进行了视觉呈现,提供了整体性能的概览,并在图2中提供了性能指标的详细分解。

从图1中呈现的总体数据来看,明显可以看出基于Mamba的模型在OOD性能上优于其对应模型,并显示出明显的形状偏差。这种形状偏差,即偏好于识别物体的形状而非纹理,更接近于人类视觉中固有的图像识别能力。与人类视觉处理的这种一致性,强调了基于Mamba的模型在需要细致视觉理解的应用中的潜力。

图2提供的更细粒度的洞察进一步证实了基于Mamba的模型在性能上优于基于ViT架构的模型。值得注意的是,在对比度增强或应用高通滤波器的条件下——在这些场景中,基于Mamba的模型不仅性能超过基于ViT的模型,甚至超越了人类的能力。一方面,ViTs和人类视觉对视觉数据中的低频成分显示出明显的偏好,正如Park和Kim(2022年)所强调的。这种倾向使得它们在低频成分被最小化或不存在的环境中效果不佳,例如在存在高通滤波器的情况下。另一方面,状态空间模型或Mamba的隐藏层是正交多项式的系数,因此在频率偏差方面不如ViT明显。

2.3 Hessians and Training Landscape

Hessian谱反映了模型的训练景观,一个理想的损失景观由其平坦度和凸性来表征。Hessian特征值作为这些特性的指标,其中特征值的幅度反映了景观的尖锐程度,负Hessian特征值的存在表示非凸性。作者遵循Park & Kim(2022)进行这项分析。作者使用了3000个样本,批处理大小为15。对于每个批次,作者计算前5个Hessian特征值谱,结果如图3所示。可视化显示,VLambda模型相比于ViT模型显示出更多的负特征值,表明其具有更明显的非凸性。此外,Mamba模型显示具有较大幅值的特征值数量更多,这表明它们的损失景观更为尖锐。

作者遵循 Park & Kim(2022)进行这项分析。

作者使用了3000个样本,批处理大小为15。对于每个批次,作者计算前5个Hessian特征值谱,结果如图3所示。可视化显示,VLambda模型相比于ViT模型显示出更多的负特征值,表明其具有更明显的非凸性。此外,Mamba模型显示具有较大幅值的特征值数量更多,这表明它们的损失景观更为尖锐。

3 参考

[1].CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation.

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

  • 15
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值