Abstract

最新推荐文章于 2024-08-10 22:15:42 发布

six.学长

最新推荐文章于 2024-08-10 22:15:42 发布

阅读量291

点赞数 2

分类专栏： Mamba 文章标签：深度学习

本文链接：https://blog.csdn.net/m0_51200050/article/details/140398205

版权

Mamba 专栏收录该内容

11 篇文章 1 订阅

订阅专栏

这个段落讨论了深度学习中基础模型的最新进展，特别是基于Transformer架构和其核心注意力机制的模型。这些模型现在驱动着大多数令人兴奋的深度学习应用。然而，Transformer在处理长序列时的计算效率问题，促使研究人员开发了许多子二次时间复杂度的架构，如线性注意力、门控卷积和递归模型，以及结构化状态空间模型（SSMs）。尽管这些模型在计算效率上有所改进，但在语言等重要模态上的性能却不如传统的注意力机制。

研究人员发现，这些模型在内容为基础的推理能力上存在关键弱点。为了改善这一点，文章提出了以下几点改进：

输入依赖的SSM参数：通过让SSM参数成为输入的函数，解决了这些模型在离散模态（如语言）上的不足。这样一来，模型可以根据当前的token（标记）选择性地传播或遗忘信息，从而在序列长度维度上更有效地处理信息。
硬件感知的并行算法：尽管这种改进阻止了使用高效的卷积运算，研究人员设计了一种在递归模式下的硬件感知并行算法，提升了计算效率。

这些选择性SSM被集成到一个简化的端到端神经网络架构中，该架构不依赖注意力机制或MLP块，被称为Mamba。Mamba模型具有以下优势：

推理速度快：Mamba的推理速度是Transformer的5倍。
序列长度的线性扩展：Mamba在处理长序列时具有线性扩展性。
跨模态的领先性能：在语言、音频和基因组学等多个模态上，Mamba达到了最先进的性能。

具体数据举例：

在语言建模方面，Mamba-3B模型（拥有30亿参数）在预训练和下游评估中，表现优于同规模的Transformer，并且可以与两倍规模的Transformer媲美。

这些改进展示了Mamba作为通用序列模型骨干的强大性能和高效性，在多个模态上均表现出色。

six.学长

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Abstract

然而，Transformer在处理长序列时的计算效率问题，促使研究人员开发了许多子二次时间复杂度的架构，如线性注意力、门控卷积和递归模型，以及结构化状态空间模型（SSMs）。尽管这些模型在计算效率上有所改进，但在语言等重要模态上的性能却不如传统的注意力机制。：通过让SSM参数成为输入的函数，解决了这些模型在离散模态（如语言）上的不足。：尽管这种改进阻止了使用高效的卷积运算，研究人员设计了一种在递归模式下的硬件感知并行算法，提升了计算效率。研究人员发现，这些模型在内容为基础的推理能力上存在关键弱点。
复制链接

扫一扫

专栏目录