黑曼巴精神不死!Mamba 2 出世,性能狂飙8倍

年前,Mamba 被 ICLR 拒稿的消息曾引起轩然大波。然而,Mamba作者在6月初又发布了 Mamba 2 架构,这次,Mamba-2 顺利地拿下 ICML。就连 Nvidia 都被吸引,都用它重新训练了GPT3模型。

在这里插入图片描述

Transformer vs Mamba vs Mamba2 : 比较和概述

Transformer、Mamba和Mamba2都是用于自然语言处理(NLP)任务的大型语言模型(LLM)架构。它们各有优缺点,适用于不同的应用场景。

Transformer

Transformer是目前最流行的LLM架构之一,于2017年提出。它是一种基于编码器-解码器架构的深度学习模型,使用注意力机制来学习输入和输出序列之间的依赖关系。Transformer在各种NLP任务中都取得了最先进的结果,但其计算复杂度较高,在处理长序列数据时效率较低。

Mamba

Mamba是一种基于状态空间模型(SSM)的LLM架构,于2023年提出。它旨在克服Transformer架构在处理长序列数据时的效率低下的问题。Mamba通过使用选择性状态空间和线性时间序列建模来实现更高的效率。

Mamba2

Mamba2是Mamba的改进版本,于2024年提出。它在Mamba的基础上进行了改进,进一步提高了性能和效率。Mamba2使用状态空间对偶性(SSD)框架来设计其核心层,该框架允许对注意力机制进行高效的并行化。

基于 Mamba 的语言模型实证研究

像 Mamba 这样的选择性状态空间模型(SSM)克服了 Transformers 的一些缺点,例如随序列长度变化的二次计算复杂性,以及键值缓存对推理时内存的巨大需求。此外,最近的研究表明,SSM 可以与 Transformers 的语言建模能力相媲美,甚至超过 Transformers,因此成为一种有吸引力的替代方案。不过,在受控环境下(如相同数据),迄今为止的研究仅介绍了将 SSM 与 Transformers 进行比较的小规模实验。为了了解这些架构在更大规模上的优缺点,我们直接比较了在相同数据集(多达 3.5T 标记)上训练的 8B 参数 Mamba、Mamba-2 和 Transformer 模型。我们还将这些模型与由 43% Mamba-2、7% attention 和 50% MLP 层组成的混合架构(Mamba-2-Hybrid)进行了比较。通过使用一组不同的任务,我们回答了 Mamba 模型能否在更大的训练预算下与 Transformers 匹配的问题。我们的结果表明,虽然纯 SSM 在许多任务上都能与 Transformers 相匹敌甚至更胜一筹,但在需要很强的复制或上下文学习能力(如 5 次 MMLU、电话簿)或长上下文推理的任务上,它们却落后于 Transformers。相比之下,我们发现 8B Mamba-2-Hybrid 在我们评估的所有 12 项标准任务中的表现都超过了 8B Transformer(平均超过 2.65 分),而且在推理时生成标记的速度预计可提高 8 倍。为了验证长语境能力,我们提供了更多实验,对 Mamba-2-Hybrid 和 Transformer 的变体进行评估,以支持 16K、32K 和 128K 序列。在另外 23 个长上下文任务中,混合模型的平均性能仍然接近或超过 Transformer。为了便于进一步研究,我们发布了检查点以及用于训练模型的代码,作为英伟达 Megatron-LM 项目的一部分。

比较

在 1.1T 词库上训练的 8B 参数模型的估值结果。纯 SSM 模型(Mamba
和 Mamba-2)在许多自然语言任务上都能与 Transformers 相媲美甚至更胜一筹,但在其他任务上
(例如,MMLU)

在这里插入图片描述
在这里插入图片描述

模型

在这里插入图片描述

论文

详细查看An Empirical Study of Mamba-based Language Models

感谢

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!

  • 12
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
当出现 "'yarn' 不是内部或外部命令,也不是可运行的程序或批处理文件" 的报错时,通常是因为系统无法找到安装的 yarn 命令。这可能是由于未正确安装 yarn 或者没有将 yarn 的安装路径添加到系统的环境变量中所致。根据上述引用内容提供的解决方案,你可以尝试以下步骤来解决这个问题: 1. 首先,确认你已经正确地安装了 yarn。你可以通过在命令行中输入 "yarn -v" 来检查是否成功安装。如果没有安装,你可以使用以下命令重新下载并安装 yarn:npm install -g yarn 。 2. 确认你的系统环境变量中已经添加了 yarn 的安装路径。你可以按照以下步骤进行操作: - 打开系统的环境变量设置。 - 在 "Path" 路径中添加 yarn 的安装路径,例如:C:\Users\XXX\node_modules\yarn\bin 。 - 保存更改并关闭设置。 3. 重新启动你的编辑器或终端,并再次尝试执行 yarn 命令。如果一切设置正确,你应该能够成功运行 yarn 命令了。 希望以上解决方案可以帮助你解决问题。如果问题仍然存在,请尝试重新安装 yarn 或者参考相关文档来获取更多帮助。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [“ ‘vue-cli-service‘ 不是内部或外部命令,也不是可运行的程序或批处理文件”的报错解决方案 ”](https://blog.csdn.net/qq_57587705/article/details/124352490)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [yarn 不是内部或外部命令,也不是可运行的程序 或批处理文件。](https://blog.csdn.net/apple_51417798/article/details/132262991)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值