空间状态模型存在的问题与挑战_state space model, ssm模型arxiv-CSDN博客

本文链接：https://blog.csdn.net/liangdaojun/article/details/138285173

本文探讨了空间状态模型(SSM)在大规模预训练中的局限性，尤其是在与Transformer网络的比较中。文章强调了SSM在GPU效率和低内存消耗方面的潜力，同时提出了对新型扫描算子、多模态学习和领域泛化性能的改进方向。未来，SSM有望融入现有深度学习模型以提升性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

空间状态模型存在的问题与挑战

论文：https://arxiv.org/abs/2404.09516
作者单位：安徽大学、哈尔滨工业大学、北京大学

更多相关工作将在以下GitHub上不断更新
https://github.com/Event-AHU/Mamba_State_Space_Model_Paper_List

目前的ssm模型的性能仍然不如主流的Transformer网络。在大规模数据集上预训练的ssm，如ImageNet[2]，在许多下游任务中起着至关重要的作用，然而，ssm的基础版本、大型版本和巨型版本很少被发布。我们认为这可能是在CV任务中表现优异的一个障碍。
ssm在GPU使用上的优势值得进一步探索和研究。根据我们的实验，在一些下游任务上，内存消耗比Transformer网络更低或与之相当。在这方面可以观察到显著的改进，但有些任务没有。挖掘较低GPU内存消耗的研究值得进一步探索和研究。
进一步挖掘其在高分辨率或长期视觉数据方面的优势是一个值得关注和研究的方向。由于SSMs架构在理论上显著降低了模型的复杂性，因此其对高分辨率数据(遥感数据、x射线医学图像)或长期序列数据(长期视频帧)的建模能力具有重要价值。然而，使用其他强大的模型(如Transformer网络)并不能很好地处理这些方面。
使用ssm架构预训练大型模型。在预训练大模型时代，深度神经网络的尺度化是通用人工智能的重要一步。目前的大型模型都是基于CNN或Transformer网络构建的，很少采用ssm架构。最近，由AI21Labs发布的Jamba[136]是一种新的大型语言模型，它融合了Transformer、Mamba和MoE(混合专家)。它支持最多256K个令牌的上下文长度输入，并且也实现了与Mixtral-8x7B[266]和Llama-2 70B[225]相当的性能。构建纯曼巴或混合架构的研究将是预训练大模型的一个有前途的方向。
使用ssm架构的多模态学习。早期的多模态相关研究主要关注如何学习特定模态表征和共享模态表征。受Transformer网络的影响，目前的多模态算法通常直接在一个统一的Transformer网络中对多个线索进行编码和融合[267]，[268]。因此, 推理阶段的成本可能是单一模态的两倍。如何为成本敏感型多模态学习设计新的基于ssms的主干是一个重要的研究课题。
为ssm开发新型扫描算子。扫描是ssm体系结构的关键操作，一维和二维数据通常采用不同的扫描机制处理。例如，vammba[60]使用CSM (scan expand)扫描图像，并将四个输出特征合并为最终的2D特征图。为了处理更特殊的遥感数据，一些研究人员提出了额外的扫描机制来捕获倾斜特征表示，以获得更全面的特征[139]。不同扫描方案的对比如图8所示。因此，设计新的扫描方案来增强ssm的特征学习是很自然的。例如，有可能开发新的轨迹改变扫描方法来更好地编码点云和事件流。
ssm的泛化性能仍然值得关注和进一步的研究和改进。相对于CNN和Transformer有限的感受野和较大的复杂性，ssm具有线性复杂性和全局感受野，在领域泛化领域可能具有更大的优势和潜力。然而，目前基于SSM的网络显示出有限的领域泛化能力，如DGMamba[120]所指出的。Long等人[120]试图从隐藏状态和不适当扫描机制的角度解决这一问题，提出了隐藏状态抑制(HSS)和语义感知补丁精炼(SPR)策略。我们相信可以进行更多的见解和改进，以进一步提高领域泛化的整体性能。
使用最新的SSM模型来增强现有的深度神经网络模型。在第三波深度学习的早期阶段，提出了许多聪明的神经网络模块或设计，如知识蒸馏、金字塔结构、网络中的网络[269]、扩散模型、GAN等。在这些成功模块的基础上对SSM进行改进，或者在这些模块中引入SSM，都可以带来更好的性能。