二、Mamba
为了解决上述传统 SSM 的缺点,实现上下文感知型建模,Albert Gu 和 Tri Dao 提出了可用作通用序列基础模型主干网络的 Mamba。
之后,他们俩又进一步提出了 Mamba-2,其中的结构化空间状态对偶(SSD/Structured Space-State Duality)构建了一个将结构化 SSM 与多种形式的注意力连接起来的稳健的理论框架,让我们可将原本为 Transformer 开发的算法和系统优化技术迁移用于 SSM。
Mamba-1:使用硬件感知型算法的选择式状态空间模型
Mamba-1 基于结构化状态空间模型引入了三大创新技术,即基于高阶多项式投影算子(HiPPO)的内存初始化、选择机制和硬件感知型计算。如图 3 所示。这些技术的目标是提升 SSM 的长程线性时间序列建模能力。
具体来说,其中的初始化策略可构建一个连贯的隐藏状态矩阵,以有效地促进长程记忆。
然后,选择机制可让 SSM 有能力获取可感知内容的表征。
最后,为了提升训练效率,Mamba 还包含两种硬件感知型计算算法:Parallel Associative Scan(并行关联扫描)和 Memory Recomputation(内存重新计算)。
Mamba-2:状态空间对偶
Transformer 启发了多种不同技术的发展,比如参数高效型微调、灾难性遗忘缓解、模型量化。为了让状态空间模型也能受益于这些原本为 Transformer 开发的技术,Mamba-2 引入了一个新框架:结构化状态空间对偶(SSD)。该框架在理论上将 SSM 和不同形式的注意力连接到了一起。
本质上讲,SSD 表明,Transformer 使用的注意力机制和 SSM 中使用的线性时不变系统都可被视为半可分离的矩阵变换。
此外,Albert Gu 和 Tri Dao 还证明选择式 SSM 等价于使用一种半可分离掩码矩阵实现的结构化线性注意力机制。
Mamba-2 基于 SSD 设计了一种能更高效使用硬件的计算方法,这要用到一种块分解矩阵乘法算法。
具体来说,通过这种矩阵变换将状态空间模型视为半可分离矩阵,Mamba-2 能将该计算分解为矩阵块,其中对角块表示块内计算。而非对角块则表示通过 SSM 的隐藏状态分解的块间计算。该方法可让 Mamba-2 的训练速度超过 Mamba-1 的并行关联扫描的 2-8 倍,同时性能还能媲美 Transformer。
Mamba 块
下面来看看 Mamba-1 和 Mamba-2 的块设计。图 4 比较了这两种架构。
Mamba-1 的设计是以 SSM 为中心,其中选择式 SSM 层的任务是执行从输入序列 X 到 Y 的映射。在这种设计中,经过了初始的创建 X 的线性投射之后,会使用 (A, B, C) 的线性投射。然后,输入 token 和状态矩阵会通过选择式 SSM 单元,利用并行关联扫描,从而得到输出 Y。之后,Mamba-1 采用了一个 skip 连接,以鼓励特征复用和缓解常在模型训练过程中发生的性能下降问题。最后,通过交错地堆叠该模块与标准归一化和残差连接,便可构建出 Mamba 模型。
至于 Mamba-2,则是引入了 SSD 层来创建从 [X, A, B, C] 到 Y 的映射。其实现方式是在块的起点处使用单个投射来同时处理 [X, A, B, C],这类似于标准注意力架构以并行方式生成 Q、K、V 投射的方式。
也就是说,通过移除序列线性投射,Mamba-2 块是在 Mamba-1 块的基础上进行了简化。这能让 SSD 结构的计算速度超过 Mamba-1 的并行选择式扫描。此外,为了提升训练稳定性,Mamba-2 还在 skip 连接之后添加了一个归一化层。
最后分享
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
5. 大模型面试题
面试,不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费
】
如有侵权,请联系删除。