看懂Mamba，Transformer最强竞争者（三）让 Mamba 适应多样化的数据

AI老猴子

于 2024-08-30 10:00:00 发布

阅读量888

点赞数 23

文章标签： transformer 人工智能 AI大模型大模型 AI Mamba 学习

本文链接：https://blog.csdn.net/star_nwe/article/details/141687481

版权

三、Mamba 模型正在发展进步

状态空间模型和 Mamba 近来发展迅猛，已经成为了一大极具潜力的基础模型骨干网络选择。尽管 Mamba 在自然语言处理任务上表现不俗，但也仍具有一些难题，比如记忆丢失、难以泛化到不同任务、在复杂模式方面的表现不及基于 Transformer 的语言模型。为了解决这些难题，研究社区为 Mamba 架构提出了诸多改进方案。现有的研究主要集中于修改块设计、扫描模式和记忆管理。表 1 分类总结了相关研究。

块设计

Mamba 块的设计和结构对 Mamba 模型的总体性能有很大的影响，也因此这成为了一大研究热点。

如图 5 所示，基于构建新 Mamba 模块的不同方法，现有研究可以分为三类：

集成方法：将 Mamba 块与其它模型集成到一起，实现效果与效率的平衡；
替换方法：用 Mamba 块替换其它模型框架中的主要层；
修改方法：修改经典 Mamba 块内的组件。

扫描模式

并行关联扫描是 Mamba 模型内的一大关键组件，其目标是解决由选择机制导致的计算问题、提升训练过程速度以及降低内存需求。其实现方式是利用时变的 SSM 的线性性质来在硬件层级上设计核融合和重新计算。但是，Mamba 的单向序列建模范式不利于全面学习多样化的数据，比如图像和视频。

为缓解这一问题，一些研究者探索了新的高效扫描方法，以提升 Mamba 模型的性能以及促进其训练过程。如图 6 所示，在开发扫描模式方面，现有的研究成果可以分为两类：

展平式扫描方法：以展平的视角看待 token 序列，并基于此处理模型输入；
立体式扫描方法：跨维度、通道或尺度扫描模型输入，这又可进一步分为三类：分层扫描、时空扫描、混合扫描。

记忆管理

类似于 RNN，在状态空间模型内，隐藏状态的记忆有效地存储了之前步骤的信息，因此对 SSM 的整体性能有着至关重要的影响。尽管 Mamba 引入了基于 HiPPO 的方法来进行记忆初始化，但管理 SSM 单元中的记忆依然难度很大，其中包括在层之前转移隐藏信息以及实现无损记忆压缩。

为此，一些开创性研究提出了一些不同的解决方案，包括记忆的初始化、压缩和连接。

四、让 Mamba 适应多样化的数据

Mamba 架构是选择式状态空间模型的一种扩展，其具备循环模型的基本特性，因而非常适合作为处理文本、时间序列、语音等序列数据的通用基础模型。

不仅如此，近期一些开创性研究更是扩展了 Mamba 架构的应用场景，使其不仅能处理序列数据，还能用于图像和图谱等领域，如图 7 所示。

这些研究的目标是既充分利用 Mamba 能获取长程依赖关系的出色能力，也让其发挥学习和推理过程中的效率优势。表 2 简单总结了这些研究成果。

序列数据

序列数据是指以特定顺序收集和整理的数据，其中数据点的顺序具有重要意义。这份综述报告全面总结了 Mamba 在多种序列数据上的应用，包括自然语言、视频、时间序列、语音和人体运动数据。详见原论文。

非序列数据

不同于序列数据，非序列数据并不遵循特定的顺序。其数据点可以任意顺序进行组织而不会对数据的含义造成显著影响。对于专门设计用于捕获数据中时间依赖关系的循环模型（RNN 和 SSM 等）来说，这种缺乏固有顺序的数据会很难处理。

令人惊讶的是，近期的一些研究成功让 Mamba（代表性的 SSM）实现了对非序列数据的高效处理，包括图像、图谱和点云数据。

多模态数据

为了提升 AI 的感知和场景理解能力，可以整合多个模态的数据，比如语言（序列数据）和图像（非序列数据）。这样的整合能提供非常有价值和补充性的信息。

近段时间来，多模态大型语言模型（MLLM）是最受关注的研究热点；这类模型继承了大型语言模型（LLM）的强大能力，包括强大的语言表达和逻辑推理能力。尽管 Transformer 已经成为该领域的主导方法，但 Mamba 也正在崛起成为一大强劲竞争者，其在对齐混合源数据和实现序列长度的线性复杂度扩展方面表现出色，这使 Mamba 有望在多模态学习方面替代 Transformer。

最后分享

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

5. 大模型面试题

面试，不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】

在这里插入图片描述
如有侵权，请联系删除。

AI老猴子

关注

23
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
看懂Mamba，Transformer最强竞争者（三）让 Mamba 适应多样化的数据

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！
复制链接

扫一扫