江大白 | CLIP-Mamba开源，首次提出CLIP训练，仅1/5参数就达到Sort性能（附论文及源码）

最新推荐文章于 2024-08-13 10:09:13 发布

双木的木

最新推荐文章于 2024-08-13 10:09:13 发布

阅读量1.1k

点赞数 17

分类专栏：深度学习拓展阅读多模态模型专栏文章标签：人工智能 python 开发语言 github CLIP transformer ood

本文链接：https://blog.csdn.net/csdn_xmj/article/details/138943679

版权

深度学习拓展阅读同时被 2 个专栏收录

213 篇文章 19 订阅

订阅专栏

多模态模型专栏

11 篇文章 0 订阅

订阅专栏

本文来源公众号“江大白”，仅用于学术分享，侵权删，干货满满。

原文链接：CLIP-Mamba开源，首次提出CLIP训练，仅1/5参数就达到Sort性能（附论文及源码）

以下文章来源于微信公众号：AI视界引擎

作者：AI引擎

链接：https://mp.weixin.qq.com/s/nVRA0JlkOmSUXpaub1VPTg

0 导读

作者首次尝试利用对比语言-图像预训练来训练可迁移的Mamba模型，并在大量数据集上进行了全面评估。作者发现，Mamba模型与视觉Transformer模型在零样本分类任务上表现相当，但参数更有效。在测试中，Mamba模型在处理对比度或高通滤波的OOD图像时表现出色。

这份技术报告介绍了首次尝试利用对比语言-图像预训练（CLIP）来训练一个可迁移的Mamba模型。作者已经训练了不同规模的Mamba模型，并在26个零样本分类数据集和16个分布外（OOD）数据集上对这些模型进行了全面评估。作者的研究发现，拥有6700万参数的Mamba模型与拥有3.07亿参数的视觉 Transformer （ViT）模型在零样本分类任务上表现相当，突显了Mamba模型的参数效率。在OOD泛化测试中，基于Mamba的模型在OOD图像对比度或经过高通滤波的条件下表现出色。然而，Hessian分析表明，与基于ViT的模型相比，Mamba模型具有更尖锐、更非凸的景观，这使得它们更难以训练。

论文链接：https://arxiv.org/pdf/2404.19394

代码链接：https://github.com/raytrun/mamba-clip

1 Introduction

基础模型，即在对大量数据进行预训练并在特定下游任务中进行适配的模型，已成为机器学习领域内一个充满活力的研究方向。在过去的六年里，Transformers已经成为支撑基础模型的主要架构，跨越了众多领域。Transformer架构的核心是自注意力机制，它复杂地促进了每个标记对之间的信息流动。这一机制因其对情境学习的不可或缺的作用、增强推理能力以及提升分布外（OOD）鲁棒性而受到高度评价。然而，自注意力机制的二次计算需求带来了重大的可扩展性挑战，特别是在窗口长度方面，因此成为实际应用中的一个重大障碍。作为回应，大量研究致力于设计能在亚二次时间内运行的有效的自注意力机制。尽管这些进展，但这些创新往往在性能上不如二次时间复杂度的Transformer。

选择性状态空间模型（Mamba）最近作为下一代基础模型 Backbone 的有力候选者出现，因为它们在享受线性时间复杂度的同时，比Transformers展现出更好的扩展规律。在过去的几个月里，Mamba模型在包括但不限于自然语言处理，图像处理，视频分析，时间序列预测，图论应用，点云处理，推荐系统，强化学习，以及医疗诊断在内的一系列关键领域中展示了卓越的成功。聚焦于计算机视觉，大量基于Mamba的模型出现，并在图像分类，目标检测，分割，图像恢复，以及3D重建等方面设定了新的最先进基准。尽管这些成就，当前的基于Mamba的模型是在一组固定的预定目标类别上进行训练的，缺乏零样本泛化能力。要弥补这一差距，需要整合大规模语言-图像预训练，这是基于Mamba的基础模型发展的一个不可或缺的组成部分。

这份技术报告首次尝试使用对比语言-图像预训练来训练Mamba模型。具体来说，本技术报告的结论总结如下：

CLIP-Mamba模型：作者发布了开源的CLIP-Mamba模型。具有5000万参数的Mamba模型超越了8400万参数的ViT模型的表现，而具有6700万参数的Mamba模型在26个零样本分类数据集上的表现等同于3.07亿参数的ViT模型。这些结果强调了Mamba模型的效率和有效性。
OOD泛化评估：作者在16个OOD数据集上的广泛评估表明，Mamba模型一致性地优于ViT模型。基于Mamba的模型在OOD图像对比度条件下或受到高通滤波处理时显示出异常的鲁棒性。
景观评估：通过可视化Hessian，作者深入探讨了Mamba模型的训练景观。作者的发现表明，与ViT模型相比，Mamba模型展现出更加“非凸”和更尖锐的景观，这表明在优化方面存在更大的挑战。

2 Experiments and Analysis

在本节中，作者针对CLIP Mamba模型与CLIP Vision Transformer模型在零样本分类、OOD泛化和Hessian谱方面进行了全面的实验和分析。

2.1 Zero-shot Classification

在作者的研究中，作者训练了一系列模型，包括VMamba-30M、VMamba-50M、VMamba-89M，以及Simba-L 66.6M，使用了标准的CLIP预训练流程。这些模型的零样本性能在多种数据集上进行系统评估，并在表1中进行了总结。

值得注意的是，在大多数考察的数据集中，50M参数的Mamba-S模型的表现优于84M参数的ViT-B模型。在考虑性能巅峰时，结果各占一半；66.6M参数的Simba-L在一半的数据集中领先，而307M参数的ViT-L在剩余的一半中占据主导。

2.2 OOD Robustness and Comparison with Humans

基于Geirhos等人（2021年）提出的方法论，作者深入进行了涉及VMamba、Simba、ViTs以及人类在16个分布外（OOD）数据集上的性能比较。这一全面比较的结果在图1中进行了视觉呈现，提供了整体性能的概览，并在图2中提供了性能指标的详细分解。

从图1中呈现的总体数据来看，明显可以看出基于Mamba的模型在OOD性能上优于其对应模型，并显示出明显的形状偏差。这种形状偏差，即偏好于识别物体的形状而非纹理，更接近于人类视觉中固有的图像识别能力。与人类视觉处理的这种一致性，强调了基于Mamba的模型在需要细致视觉理解的应用中的潜力。

图2提供的更细粒度的洞察进一步证实了基于Mamba的模型在性能上优于基于ViT架构的模型。值得注意的是，在对比度增强或应用高通滤波器的条件下——在这些场景中，基于Mamba的模型不仅性能超过基于ViT的模型，甚至超越了人类的能力。一方面，ViTs和人类视觉对视觉数据中的低频成分显示出明显的偏好，正如Park和Kim（2022年）所强调的。这种倾向使得它们在低频成分被最小化或不存在的环境中效果不佳，例如在存在高通滤波器的情况下。另一方面，状态空间模型或Mamba的隐藏层是正交多项式的系数，因此在频率偏差方面不如ViT明显。

2.3 Hessians and Training Landscape

Hessian谱反映了模型的训练景观，一个理想的损失景观由其平坦度和凸性来表征。Hessian特征值作为这些特性的指标，其中特征值的幅度反映了景观的尖锐程度，负Hessian特征值的存在表示非凸性。作者遵循Park & Kim（2022）进行这项分析。作者使用了3000个样本，批处理大小为15。对于每个批次，作者计算前5个Hessian特征值谱，结果如图3所示。可视化显示，VLambda模型相比于ViT模型显示出更多的负特征值，表明其具有更明显的非凸性。此外，Mamba模型显示具有较大幅值的特征值数量更多，这表明它们的损失景观更为尖锐。

作者遵循 Park & Kim（2022）进行这项分析。

作者使用了3000个样本，批处理大小为15。对于每个批次，作者计算前5个Hessian特征值谱，结果如图3所示。可视化显示，VLambda模型相比于ViT模型显示出更多的负特征值，表明其具有更明显的非凸性。此外，Mamba模型显示具有较大幅值的特征值数量更多，这表明它们的损失景观更为尖锐。

3 参考

[1].CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation.

THE END !

文章结束，感谢阅读。您的点赞，收藏，评论是我继续更新的动力。大家有推荐的公众号可以评论区留言，共同学习，一起进步。

双木的木

关注

17
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
江大白 | CLIP-Mamba开源，首次提出CLIP训练，仅1/5参数就达到Sort性能（附论文及源码）

作者首次尝试利用对比语言-图像预训练来训练可迁移的Mamba模型，并在大量数据集上进行了全面评估。作者发现，Mamba模型与视觉Transformer模型在零样本分类任务上表现相当，但参数更有效。在测试中，Mamba模型在处理对比度或高通滤波的OOD图像时表现出色。
复制链接

扫一扫

专栏目录