Mamba简介
Mamba是最近提出的一种新的模型架构,与Transformers等传统模型相比,它的优势是更有效地处理长序列。它利用选择性状态空间模型(SSM),根据内容动态过滤和处理信息,允许模型选择性地记住或忽略输入的部分。Mamba在多模态都表现了先进的性能,据论文所述,它在预训练下游任务中,都要优于同尺寸的Transformers。
论文链接:https://arxiv.org/pdf/2312.00752.pdf
代码链接:https://github.com/state-spaces/mamba
问题描述及解决方案
Mamba可以实现在显卡上加速,对CUDA和pytorcch的版本都提出了要求。在使用Mamba的过程中,大多数问题都出现了版本中。下面是官网对CUDA和Pytorch的版本要求:
这里贴上我个人的环境:
python=3.8.0
Cuda&