Mamba踩坑与解决方法

Mamba简介

Mamba是最近提出的一种新的模型架构,与Transformers等传统模型相比,它的优势是更有效地处理长序列。它利用选择性状态空间模型(SSM),根据内容动态过滤和处理信息,允许模型选择性地记住或忽略输入的部分。Mamba在多模态都表现了先进的性能,据论文所述,它在预训练下游任务中,都要优于同尺寸的Transformers。

论文链接:https://arxiv.org/pdf/2312.00752.pdf

代码链接:https://github.com/state-spaces/mamba

问题描述及解决方案

Mamba可以实现在显卡上加速,对CUDA和pytorcch的版本都提出了要求。在使用Mamba的过程中,大多数问题都出现了版本中。下面是官网对CUDA和Pytorch的版本要求:

这里贴上我个人的环境:

python=3.8.0
Cuda&
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值