Mamba

whaosoft143

已于 2023-12-29 12:40:10 修改

阅读量1.9k

点赞数 24

分类专栏：人工智能文章标签：人工智能

于 2023-12-05 14:24:58 首次发布

本文链接：https://blog.csdn.net/qq_29788741/article/details/134806498

版权

人工智能专栏收录该内容

2580 篇文章 107 订阅

订阅专栏

在别的领域，如果你想形容一个东西非常重要，你可能将其形容为「撑起了某领域的半壁江山」。但在 AI 大模型领域，Transformer 架构不能这么形容，因为它几乎撑起了「整个江山」。

自 2017 年被提出以来，Transformer 已经成为 AI 大模型的主流架构，但随着模型规模的扩展和需要处理的序列不断变长，Transformer 的局限性也逐渐凸显。一个很明显的缺陷是：Transformer 模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长，比如上下文增加 32 倍时，计算量可能会增长 1000 倍，计算效率非常低。

为了克服这些缺陷，研究者们开发出了很多注意力机制的高效变体，但这往往以牺牲其有效性特为代价。到目前为止，这些变体都还没有被证明能在不同领域发挥有效作用。

最近，一项名为「Mamba」的研究似乎打破了这一局面。五倍吞吐量，性能全面包围Transformer

在这篇论文中，研究者提出了一种新的架构 ——「选择性状态空间模型（ selective state space model）」。它在多个方面改进了先前的工作。

作者表示，「Mamba」在语言建模方面可以媲美甚至击败 Transformer。而且，它可以随上下文长度的增加实现线性扩展，其性能在实际数据中可提高到百万 token 长度序列，并实现 5 倍的推理吞吐量提升。

消息一出，人们纷纷点赞，有人表示已经迫不及待想要把它用在大模型上了。

作为通用序列模型的骨干，Mamba 在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面，无论是预训练还是下游评估，他们的 Mamba-3B 模型都优于同等规模的 Transformer 模型，并能与两倍于其规模的 Transformer 模型相媲美。

这篇论文的作者只有两位，一位是卡内基梅隆大学机器学习系助理教授 Albert Gu，另一位是 Together.AI 首席科学家、普林斯顿大学计算机科学助理教授（即将上任）Tri Dao。

Albert Gu 表示，这项研究的一个重要创新是引入了一个名为「选择性 SSM」的架构，该架构是 Albert Gu 此前主导研发的 S4 架构（Structured State Spaces for Sequence Modeling ，用于序列建模的结构化状态空间）的一个简单泛化，可以有选择地决定关注还是忽略传入的输入。一个「小小的改变」—— 让某些参数成为输入的函数，结果却非常有效。

值得一提的是，S4 是一个非常成功的架构。此前，它成功地对 Long Range Arena (LRA) 中的长程依赖进行了建模，并成为首个在 Path-X 上获得高于平均性能的模型。更具体地说，S4 是一类用于深度学习的序列模型，与 RNN、CNN 和经典的状态空间模型（State Space Model，SSM）广泛相关。SSM 是独立的序列转换，可被整合到端到端神经网络架构中（ SSM 架构有时也称 SSNN，它与 SSM 层的关系就像 CNN 与线性卷积层的关系一样）。Mamba 论文也讨论了一些著名的 SSM 架构，比如 Linear attention、H3、Hyena、RetNet、RWKV，其中许多也将作为论文研究的基线。Mamba 的成功让 Albert Gu 对 SSM 的未来充满了信心。

Tri Dao 则是 FlashAttention、Flash Attention v2、Flash-Decoding的作者。FlashAttention 是一种对注意力计算进行重新排序并利用经典技术（平铺、重新计算）加快速度并将内存使用从序列长度的二次减少到线性的算法。Flash Attention v2、Flash-Decoding 都是建立在 Flash Attention 基础上的后续工作，把大模型的长文本推理效率不断推向极限。在 Mamba 之前，Tri Dao 和 Albert Gu 也有过合作。

另外，这项研究的模型代码和预训练的检查点是开源的，参见以下链接：https://github.com/state-spaces/mamba.

论文链接：https://arxiv.org/ftp/arxiv/papers/2312/2312.00752.pdf

方法创新

论文第 3.1 节介绍了如何利用合成任务的直觉来启发选择机制，第 3.2 节解释了如何将这一机制纳入状态空间模型。由此产生的时变 SSM 不能使用卷积，导致了高效计算的技术难题。研究者采用了一种硬件感知算法，利用当前硬件的内存层次结构来克服这一难题（第 3.3 节）。第 3.4 节描述了一个简单的 SSM 架构，不需要注意力，甚至不需要 MLP 块。第 3.5 节讨论了选择机制的一些其他特性。

选择机制

研究者发现了此前模型的一个关键局限：以依赖输入的方式高效选择数据的能力（即关注或忽略特定输入）。

序列建模的一个基本方法是将上下文压缩到更小的状态，我们可以从这个角度来看待当下流行的序列模型。例如，注意力既高效又低效，因为它根本没有明确压缩上下文。这一点可以从自回归推理需要明确存储整个上下文（即 KV 缓存）这一事实中看出，这直接导致了 Transformer 缓慢的线性时间推理和二次时间训练。

递归模型的效率很高，因为它们的状态是有限的，这意味着恒定时间推理和线性时间训练。然而，它们的高效性受限于这种状态对上下文的压缩程度。

为了理解这一原理，下图展示了两个合成任务的运行示例：

研究者设计了一种简单的选择机制，根据输入对 SSM 参数进行参数化。这样，模型就能过滤掉无关信息，并无限期地记住相关信息。

将选择机制纳入模型的一种方法是让影响序列交互的参数（如 RNN 的递归动力学或 CNN 的卷积核）与输入相关。算法 1 和 2 展示了本文使用的主要选择机制。其主要区别在于，该方法只需将几个参数 ∆，B，C 设置为输入函数，并在整个过程中改变张量形状。这些参数现在都有一个长度维度 L ，意味着模型已经从时间不变变为时间可变。

硬件感知算法

上述变化对模型的计算提出了技术挑战。所有先前的 SSM 模型都必须是时间和输入不变的，这样才能提高计算效率。为此，研究者采用了一种硬件感知算法，通过扫描而不是卷积来计算模型，但不会将扩展状态具体化，以避免在 GPU 存储器层次结构的不同级别之间进行 IO 访问。由此产生的实现方法在理论上（与所有基于卷积的 SSM 的伪线性相比，在序列长度上呈线性缩放）和现有硬件上都比以前的方法更快（在 A100 GPU 上可快达 3 倍）。

架构

研究者将先前的 SSM 架构设计与 Transformer 的 MLP 块合并为一个块，从而简化了深度序列模型架构，形成了一种包含选择性状态空间的简单、同质的架构设计（Mamba）。

与结构化 SSM 一样，选择性 SSM 也是一种独立的序列变换，可以灵活地融入神经网络。H3 架构是著名的同质化架构设计的基础，通常由线性注意力启发的块和 MLP（多层感知器）块交错组成。

研究者简化了这一架构，将这两个部分合二为一，均匀堆叠，如图 3。他们受到门控注意力单元（GAU）的启发，该单元也对注意力做了类似的处理。

选择性 SSM 以及 Mamba 架构的扩展是完全递归模型，几个关键特性使其适合作为在序列上运行的通用基础模型的骨干：

高质量：选择性为语言和基因组学等密集模型带来了强大的性能。
快速训练和推理：在训练过程中，计算量和内存与序列长度成线性关系，而在推理过程中，由于不需要缓存以前的元素，自回归展开模型每一步只需要恒定的时间。
长上下文：质量和效率共同提高了实际数据的性能，序列长度可达 100 万。

实验评估

实证验证了 Mamba 作为通用序列基础模型骨干的潜力，无论是在预训练质量还是特定领域的任务性能方面，Mamba 都能在多种类型的模态和环境中发挥作用：

合成任务。在复制和感应头等重要的语言模型合成任务上，Mamba 不仅能轻松解决，而且能推断出无限长的解决方案（>100 万 token）。

音频和基因组学。在音频波形和 DNA 序列建模方面，Mamba 在预训练质量和下游指标方面都优于 SaShiMi、Hyena、Transformer 等先前的 SOTA 模型（例如，在具有挑战性的语音生成数据集上将 FID 降低了一半以上）。在这两种情况下，它的性能随着上下文长度的增加而提高，最高可达百万长度的序列。 whaosoft aiot http://143ai.com

语言建模。Mamba 是首个线性时间序列模型，在预训练复杂度和下游评估方面都真正达到了 Transformer 质量的性能。通过多达 1B 参数的缩放规律，研究者发现 Mamba 的性能超过了大量基线模型，包括 LLaMa 这种非常强大的现代 Transformer 训练配方。

与类似规模的 Transformer 相比，Mamba 具有 5 倍的生成吞吐量，而且 Mamba-3B 的质量与两倍于其规模的 Transformer 相当（例如，与 Pythia-3B 相比，常识推理的平均值高出 4 分，甚至超过 Pythia-7B）。

自 2017 年被提出以来，Transformer 已成为 AI 大模型的主流架构，未来这种情况是一直持续，还是会有新的研究出现，我们不妨先听听身处 AI 圈的研究者是怎么想的。

在大模型领域，一直稳站 C 位的 Transformer 最近似乎有被超越的趋势。

这个挑战者就是一项名为「Mamba」的研究，其在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面，无论是预训练还是下游评估，Mamba-3B 模型都优于同等规模的 Transformer 模型，并能与两倍于其规模的 Transformer 模型相媲美。

论文一经发表，引起了不小的轰动。惊叹之余，大家发现论文作者只有两位，一位是卡内基梅隆大学机器学习系助理教授 Albert Gu，另一位是 Together.AI 首席科学家、普林斯顿大学计算机科学助理教授（即将上任）Tri Dao。

这项研究的一个重要创新是引入了一个名为「选择性 SSM（ selective state space model）」的架构，相比于 Transformer 中的自注意力机制的计算量会随着上下文长度的增加呈平方级增长，比如上下文增加 32 倍时，计算量可能会增长 1000 倍，Mamba 可以随上下文长度的增加实现线性扩展，其性能在实际数据中可提高到百万 token 长度序列，并实现 5 倍的推理吞吐量提升。而这些，都离不开选择性 SSM。

看到 Mamba 如此优异的表现后，很多研究者对 SSM（state space model）相关研究产生了好奇。

在最近的一次采访中，来自艾伦人工智能研究所（ AI2）的机器学习研究员 Nathan Lambert 与 Mamba 论文作者之一 Tri Dao，以及同样来自 Together.AI 的科学家 Michael Poli 进行了深入交流。

他们主要讨论了 LLM 架构的未来，此外，这三位研究者还探讨了状态空间模型（SSM）在新兴的 LLM 市场中的应用前景。对话中涉及的知识点也比较密集，比如为什么 Transformer 中的注意力机制有效、其扩展限制是什么、Mamba 介绍及其硬件优化以及对未来架构预测的讨论等。

为什么注意力机制有效

Nathan Lambert：我们首先来讨论一下，为什么注意力机制有效，以及注意力机制的局限性在哪里。Transformer 有多少部分是基于注意力机制构建的，还有没有其他的机制在起作用，在这方面可能会遇到哪些挑战？

Tri Dao: 没错，所谓 Transformer，就是目前推动我们看到的大多数激动人心的应用的架构。如你所说，注意力机制是其中的核心层。其实，注意力机制早在 2014 年到 2015 年就受到关注了，随后 Transformer 的概念出现，融合了注意力机制，注重多层感知机（MLP）和注意力机制的交织使用。

我认为它的成功很大程度上在于，这些模型似乎能够很好地进行扩展，你可以通过增加更多的参数和数据来扩大模型规模。这就是成功的秘诀。虽然现在看起来显而易见，但我认为五年前这还不是一个明确的概念。

Transformer 成功的几个原因包括：首先，它足够通用，能够从大量数据中学到很多东西。其次，它对硬件非常友好。与之前的循环神经网络（RNN）不同，它没有顺序依赖性。

因此，它可以在 GPU、TPU 上运行得很好，可以进行扩展，同时非常高效地利用硬件。我个人也致力于让它更加高效地利用硬件。所以，这就是成功的秘诀 —— 作一个既通用又能很好地进行扩展的架构。如果你是研究 NLP 的，也许你会考虑加入一些归纳偏置来增强模型。就我个人而言，我认为 Transformer 是一个非常通用的架构，可扩展性很好，而且对硬件很友好。

Nathan Lambert：是的，是的。现在回想起来，这一切似乎都显得很明显。现在，在研究它的替代方案时，一个有趣的维度是上下文长度。Michael，你怎么看？

Michael Poli：是的，我有几点想说。首先，目前仍然有很多优秀的研究试图从第一性原理出发解释 Transformer，为什么它能学习这些有趣的回路？人们会拆解计算过程，比如不同的 transformer 中的 head 组合等。

有一些工作会将 Transformer 作为一种编码的编程语言来理解。但我认为，正如 Trey 提到的，Transformer 中有一些非常有趣的设计选择。注意力和 MLP 的交织使用是相当重要的。而且，Transformer 一开始之所以成功，是因为它采用了一些已经为 RNN 和其他传统 NLP 模型所开发的技术，比如使用门控机制来调节模型吸收哪些信息，以及决定某些内容在这种并行形式中被忘记的速度。这就像是一些可以在 GPU 上进行优化的宝石，虽然不是很容易，但确实可以优化。

注意力计算量呈平方级增长

Nathan Lambert：是的，这些都很棒。我想说的比较具体的一点是，注意力机制最终呈现出一种随输入序列长度成二次方增长的计算成本。假设你有一个长度为 L 的输入序列，并且你想输出一个长度也为 L 的序列。如果你深入到数学细节中去，观察大多数库在推理时发生的情况，你会发现有这样一个上三角注意力矩阵，其中，你只能考虑文本的过去部分。随着处理的进行，你会发现它形成了一个 L 平方的关系，其中第一个 token 只考虑一个元素，然后每个后续的 token 需要考虑的过去 token 逐渐增多。刚才我们已经讨论了 RNN，以及一些非注意力的方法是如何做到不去查看序列中所有文本历史的。当你给聊天机器人 GPT 写一个长长的提示时，你真的希望所有那些信息都被编码进去吗？除了这种密集的注意力矩阵，我们还有什么其他的选择？

Tri Dao：循环神经网络可以追溯到 80 年代，也许其中一些更著名的是长短期记忆网络（LSTM）、门控循环单元（GRU）。大约在 2012 年到 2016 年左右，它们在翻译、语音识别等方面非常流行，当时它们是 NLP 领域的 SOTA 技术。

它们以一种序列方式处理文本：逐个观察 token，然后改变隐藏状态，每次看到一个新 token 时都会更新隐藏状态。我认为从某种意义上来说，这模仿了人脑处理信息的方式，就像你阅读一句话或一段话，就像你在大脑中存储一些信息。当你读完一个文档时，你可能能够回答关于那个文档的问题，而无需再次参考该文档。所以，RNN 就是这样工作的。它们处理文本，然后改变隐藏状态，隐藏状态是可以用来生成新 token 或对文档进行分类的表示。

大约在 2016 年左右，这些方法效果很好。但是，它们逐渐不受青睐，从实验结果来看，它们的表现并不像 Transformer 那么好。正如你提到的，由于 Transformer 存在这种二次方扩展特性，每个 token 都会与之前的各个 token 进行比较，这为信息传播提供了一种非常简单的方式。我认为这是 Transformer 和注意力机制表现出色的部分原因。

但最近，一些新的 RNN 架构似乎表现得相当不错，RWKV 是其中较早的一个。我非常钦佩那个项目，那是一位名叫 Bo Peng 的研究者主导研发的。它似乎在以一己之力对抗 Transformer 统治地位，证明了 RNN 可以非常强大。

Nathan Lambert：是的。我之前也读过这篇论文。在技术层面上，他们尝试通过两个线性 RNN 来复制类似于注意力机制中的查询键值查找的东西，本质上是为了消除像特定注意力扩展这样的潜在问题。这两个 RNN 拥有更好的长上下文行为和不同的实现规则。他们还训练了参数量高达 140 亿的模型。这也引出了我接下来想问的一些问题，包括 Mamba 和 Striped Hyena。我们可以一个一个来聊。

Striped Hyena 是个什么模型？

Nathan Lambert：我进入了 Together API，做了一次 Mistral 和 Striped Hyena 的对比测试。结果显示，Striped Hyena 是一个不错的语言模型。它能回答大多数问题，没有明显的失败模式。Michael，你怎么看待这个模型？

Michael Poli：首先我想说，这些新方法之间有一个有趣的联系。存在一种凸集，它有一个中心点，线性注意力（即没有 softmax 的注意力）、线性 RNN 以及基于状态的模型（SSM）之间的关联都在这个凸集里。在某种程度上，这种基础模型的数学表述是相同的，我这里不是指基础架构，而是指基础模型。

然后你可以朝不同的方向发展，每个方向都有自己的权衡，比如特征映射方向、 kernel 方向。所以当你分解或去除掉 softmax 时，你可以在处理查询（queries）和键（keys）时采取不同的方法。这些查询和键是构成你的注意力矩阵的基本实体。在去除 softmax 之后，你可以构建其他类似 kernel 的函数，或者其他你希望能够近似实现注意力机制功能的函数。

你可以做一些类似泰勒近似（Taylor approximation）或泰勒展开（Taylor expansion）这样的事情。你会得到一个略显不同的视角，但你得到的东西又非常相似。你可以转向 Time variance。这意味着你修改 RNN，使其计算更多地依赖于输入序列。也就是说，在线性 RNN 中的计算是由输入序列所决定的。你可以使用类似门控（gates）的东西，我们已经看到了很多工作，例如，用额外的门控来更新内部 tension，让你更好地利用你的固定状态维度。第三个方向 —— 至少在我看来 —— 是使用卷积形式的，更多地使用其他类型的线性运算符，这些运算符仍然是可结合的，仍然允许你并行训练。

所以这里的内容包括时间不变系统。我可以详细解释这些点，但是存在一些可以在卷积和循环之间切换的模型，这些模型还配备了额外的门控机制。我参与的一个项目，它诞生于我刚才提到的这第三类架构。我们真正试图做到的是，打造出每浮点运算性能最佳的架构。我们反复验证的一个原则是，似乎将不同层、不同类别的模块甚至是全注意力层结合起来，得到的东西比单独的组件要好。

因此，我们正在试图更深入地理解这些模型的组合方面。这种理解有助于我们创造每浮点运算性能更优的预训练模型。使用这种模型，我们运行了一整套的规模扩展法则。混合化也给了我们一些优势，因为我们想要的是一种可以即开即用的东西，它使得过程变得更加简单。

在为更长的上下文进行微调时，我们可以应用一些为 Transformers 开发的技术，而且有点出人意料的是，这些技术对于混合体也同样有效。比如，用于旋转嵌入的线性缩放等等，你可以深入了解细节。所以这主要是一个尝试性项目，试图弄清楚，在当前的环境下，我们最好能做到什么程度。

什么是 Mamba

Nathan Lambert：Striped Hyena 使用了一组新的模型移植技术（model grafting）进行了优化，使我们能够在训练期间更改模型架构，对我来说，感觉好像有很多事情正在发生，比如一些你可能不能谈论太多的内容如数据。

所以，我不认为所有数据都得到了很好的解释，比如较长的上下文数据是什么，你能从模型的角度解释一下吗？我认为即使只是总结一下，对人们来说也是很好的体验。

该领域有很多很酷的工作，因此，AI 领域有很多新的项目在展开，例如，有些人试图将 Lama 模型拆解并继续训练。事实上，这种做法有点狂野，人们尝试采用强大的模型并试图让它们变得更小，同时还想获得媲美大模型的性能优势。

虽然这是个题外话，但我没有预料到的是当你关注社交媒体的时候，你会看到人们会说，哦，最终还是状态非注意力模型赢了。在我看来，这种说法掩盖了很多有趣的细节。

好吧，让我们回到 Mamba。如果没记错的话，我认为 Mamba 套件中最大的模型是 2. 8 亿参数，在 NLP 基准测试中，包括 GPT J、Pythia 模型套件给出的基准分数都非常强。

Tri Dao：Mamba 是我与 Albert Gu 合作完成的，当时他是斯坦福大学的博士生，我们就是在那里认识的，他现在是 CMU 的助理教授。所以这是一次美妙的合作，Mamba 的成功要归功于他。Albert 一直致力于状态空间模型的研究，从某种意义上说，正如前面提到的，线性张量、线性 RNN、卷积、神经网络等领域他都有涉及。

在我过去参与的几个项目中，我还致力于空间、状态空间的研究，我研究的角度是如何使状态空间更加硬件高效，并提高其性能。所以和 Albert Gu 一起工作真是太棒了。我认为参与 Mamba 的研究过程更多的是一个概念证明，状态空间实际上可以像 NLP 领域的 transforme 一样好吗？因此，才有了 Mamba，这项研究表明状态空间在音频方面可能会更好。但是，对于状态空间模型来说，语言一直是最难获得、最难做好的。

而且，语言也是人们现在最关心的事情，所以我做的更多的是一个概念验证，也就是说，我们想表明状态空间模型也可以具有竞争力，甚至可以和 Transformer 一较高下。我们实验中验证的 token 数从 3B 到 300 B 不等。

所以从绝对意义上讲，这些都不是非常强大的模型，这些还不是我们真正想要的模型。我认为我们正在做的更多的是进行学术比较。比如训练相同数量的 token，状态空间模型可能比 transformer 稍微好一些。

这件事对我们来说尤其令人兴奋，我认为 Albert 已经推动这件事有一段时间了。

结果是，我们的研究在推理上可能会更快，也许我们会有不同的方式来理解上下文学习是如何发生的。我很期待未来的工作。

Mamba 硬件优化

Nathan Lambert：您能否谈一谈实现这些新 CUDA 内核实际上需要做什么？

Tri Dao：关于状态空间的研究，它在某种意义上是循环神经网络。状态大小是你在遍历或处理序列时，用来存储信息的缓冲区。

从某种意义上讲，Transformer 也可以这样理解，它保存的整个历史记录通常称为 KV 缓存，Transformer 保留历史并不断引用它。对于 RNN，它们具有固定大小的状态；对于 transformer，你可以认为状态大小正在增加。而且，我们的直觉是，状态规模越大，模型就表现越好。

所以基本上，你需要有更多的空间来存储你需要记住的东西。因此，之前的模型（例如 S4 等）具有相当大的隐式状态大小，它们使用卷积视图来避免将状态具体化。

我们希望在循环中加入更多的输入依赖性，然而，这样做阻止了我们使用可以提高效率的卷积视图。

因此，我们必须找到一种不同的方法来提高效率，所以我们把重点专注于在 GPU 上提高效率。我们的想法是，我们要有一个大的状态大小，但我们不需要用到实际的 GPU 内存，比如 HBM，我们可以把大的状态保存在一个更快的内存中，称之为 SRAM，你可以把它想象成一个缓存。如果你更熟悉 CPU，这通常是一个缓存和 RAM。

所以，如果你有较大的状态，你可以将它保存在缓存中，这样一来你不会遭受太大的损失。

2024 年架构预测

Nathan Lambert：我现在对 GPU 与 TPU 最有力的洞察是，MoE 在 TPU 中效果不佳，因为你必须在基本层上加入一些 MoE。

在分布式训练中，前馈层可能最终分布在不同的 TPU 节点上，而 TPU 之间是通过邻近节点进行通信的。因此，与 GPU 相比，TPU 在这方面会受到较大的影响。2024 年这个领域会发生什么？

Tri Dao：我认为 Transform 仍然是一个非常强大的架构，现在可以扩展到一万亿级别的参数，人们往往想要性能最好的模型，这些模型在硬件上运行效率最高，并且在软件方面拥有最多的支持。

我最近有些新想法，比如状态空间。我们已经看到，正如 Michael 提到的，混合这些组件似乎可以提高性能，我认为在 7B 大小的模型上得到了验证，也许状态空间模型可以在更大规模的模型上起作用。

当前大多数人关注的是基于 Lime 架构的数据和基础设施建设，尽管现有的 Transformer 架构在生产环境中仍然非常强大且得到广泛支持，但也存在一些边缘领域，比如长上下文、音频、基因组学等，研究这些领域中的替代架构会非常有趣。这些领域提出了一些有意义的科学问题，例如模型是否像人类一样理解指令和直觉、是否能与量化方法协同工作等。

此外，即使现在人们还在使用 Transformer 架构，未来可能会融入更多的新思想和组件，例如增加更多的层和注意力机制等，尽管它们可能仍然被称为 Transformer。

简而言之，尽管目前的人工智能领域倾向于保守，专注于现代架构，但新的架构和思想正在逐渐涌现，这些新颖的观点和方法可能会为人工智能的发展带来新的动力和方向。

Michael Poli：是的，我百分之百同意 Tri Dao 的看法，注意力机制作为计算原语依然很重要。注意力机制作为一种高效便捷的方式，可以有效增加序列处理器的状态容量。

状态维度与序列长度之间存在权衡关系，当模型尺寸变大，也就是模型变得更宽时，将有效地引入更多的状态和序列长度。这样一来，一些边际效应可能会消失，而某些权衡将会发生改变，尤其是对于那些非常大的模型，如 14B、30B 这类模型。

未来，架构设计将变得更加有趣和复杂，将会有更多的创新发生。无论是混合模型还是引入新的模块，我们都将看到更多激动人心的创新。

对 AI 更多的预测

Nathan Lambert：混合专家模型（Mixture of Experts, MoE）和状态空间模型在近期内呈现出一种流行的趋势。

然而，在开源和学术界，目前还没有人真正尝试在混合专家模型上做早期的尝试和改进。模型嫁接（Model Grafting）现在正在变得更加实用。

跟进这些进展非常有趣，希望这些发展能够为学术界和科学家们提供更多影响行业对话的方法，特别是在目前行业更多关注于扩大模型规模的情况下。我建议开源公司应该在他们的语言模型中进行特定的改进，以获得商业优势。

你们在机器学习方面还关注其他什么吗？它不一定是关于状态空间模型的。明年最让你们兴奋的是什么？

Tri Dao：我个人认为数据仍然是最重要的因素。我们正在深入研究数据如何影响模型性能，例如通过一些与模型性能高度相关的合成任务来进行研究。这种方法一直是我们论文和研究工作中的主要动力和示例。未来一段时间我们将专注于数据领域。

虽然所有的架构工作都很有趣，使其在硬件上高效运行也很有趣，但最终还是关于数据的。如果你了解扩展率（scaling law），你就会知道不同的模型架构通常会有相同的斜率，只是偏移量不同，似乎唯一能改变斜率的是数据质量。

Michael Poli：是的，我们添加了数据。数据确实很有趣，比如在架构设计上的微型化，找出并分解语言建模等任务所涉及的各个方面，我们试图将它们打包成可以用来迭代的东西，这非常令人兴奋。

我个人对新应用，尤其是基因组学工作感到非常兴奋，但更多地是从工程角度出发，我们正看到一个转变。目前，语言仍是获得最多点击和最大兴趣的领域，但我认为这将随着时间的推移而改变。

Nathan Lambert：是的，每个人都在谈论语言，但我觉得图像、视频将会是产生巨大价值的东西。我不知道语言的上限在哪里。我很兴奋，我已经开始尝试这些了，比如我会拿博客的文本，让模型转换成图片，然后转换成带有音频的视频，所有这些都是用一个 Python 脚本完成的，这真的很容易做到。所以我同意你的观点，超越语言的东西很有趣。

Tri Dao：在你的经验中，当你将所有这些东西拼凑在一起时，它们确实能够合理地工作吗？

Nathan Lambert：它还不是那么完美，DALL・E 生成的图片比较相似，但我的做法非常简单，就是直接把文本拿过来，然后用一个系统提示，让模型生成各种各样的图片，我认为我可以做得更好。据我知道，大概在一年内，就会有一个文本到视频的 API，到时我会切换到 API，那种体验会很棒。

Tri Dao：是的，我认为这些进步确实产生了大量的经济价值，我们已经看到了这一点。现在很多公司都开始转向使用这些技术。我认为这将改变我们的工作方式，正如你提到的，改变我们的工作方式和娱乐方式。所以这是一个非常令人兴奋的未来。

原文链接：https://www.interconnects.ai/p/interviewing-tri-dao-and-michael?continueFlag=5d10d34c97637bebcfeba6470c0f0d9b

whaosoft143

关注

24
点赞
踩
31

收藏

觉得还不错? 一键收藏
1
评论
Mamba

Albert Gu 表示，这项研究的一个重要创新是引入了一个名为「选择性 SSM」的架构，该架构是 Albert Gu 此前主导研发的 S4 架构（Structured State Spaces for Sequence Modeling ，用于序列建模的结构化状态空间）的一个简单泛化，可以有选择地决定关注还是忽略传入的输入。研究者将先前的 SSM 架构设计与 Transformer 的 MLP 块合并为一个块，从而简化了深度序列模型架构，形成了一种包含选择性状态空间的简单、同质的架构设计（Mamba）。
复制链接

扫一扫