ML-Mamba : 利用Mamba-2的高效多模态大型语言模型

ML-Mamba:

Efficient Multi-Modal Large Language Model Utilizing Mamba-2

ML-Mamba (Project)

Abstract

Multimodal Large Language Models (MLLMs) have attracted much attention for their multifunctionality. However, traditional Transformer architectures incur significant overhead due to their secondary computational complexity. To address this issue, we introduce ML-Mamba, a multimodal language model, which utilizes the latest and efficient Mamba-2 model for inference. Mamba-2 is known for its linear scalability and fast processing of long sequences. We replace the Transformer-based backbone with a pre-trained Mamba-2 model and explore methods for integrating 2D visual selective scanning mechanisms into multimodal learning while also trying various visual encoders and Mamba-2 model variants. Our extensive experiments in various multimodal benchmark tests demonstrate the competitive performance of ML-Mamba and highlight the potential of state space models in multimodal tasks. The experimental results show that: (1) We empirically explored the application of 2D visual selective scanning in multimodal learning and proposed the Mamba-2 Scan Connector (MSC) to enhance representational capabilities. (2) ML-Mamba achieves performance comparable to state-of-the-art methods such as TinyLaVA and MobileVLM v2 through its linear sequential modeling while faster inference speed; (3) Compared to multimodal models utilizing Mamba-1, the Mamba-2-based ML-Mamba exhibits superior inference performance and effectiveness.

多模态大型语言模型(MLLMs)因其多功能性而备受关注。然而,传统的Transformer架构由于其二次计算复杂度而产生了显著的开销。

为了解决这个问题,本文引入了ML-Mamba,这是一个多模态语言模型,它利用最新且高效的Mamba-2模型进行推理。Mamba-2以其线性可扩展性和对长序列的快速处理能力而闻名。本文将基于Transformer的主干替换为预训练的Mamba-2模型,并探索将二维视觉选择性扫描机制集成到多模态学习中的方法,同时尝试各种视觉编码器和Mamba-2模型变体。本文在各种多模态基准测试中进行了广泛的实验,展示了ML-Mamba的竞争性表现,并强调了状态空间模型在多模态任务中的潜力。

实验结果表明:(1)本文实证探索了二维视觉选择性扫描在多模态学习中的应用,并提出了Mamba-2扫描连接器(MSC)以增强表示能力。(2)ML-Mamba通过其线性序列建模,实现了与TinyLaVA和MobileVLM v2等最先进方法相当的性能,同时推理速度更快;(3)与采用Mamba-1的多模态模型相比,基于Mamba-2的ML-Mamba展现出更优的推理性能和有效性。

Introduction

大型语言模型(LLMs)的出现深刻地改变了自然语言理解任务的格局。与早期依赖中等规模任务特定模型的方法不同,近期的进展转向了使用通用的大规模模型,尤其是在ChatGPT等系统取得成功之后。已证明,扩大语言模型的规模和增加数据量可以带来诸多优势,包括提升不同任务的性能和改善分布外泛化的样本效率[18]。

然而,传统的LLMs仅限于通过语言进行交互,这限制了它们处理更多样化任务的能力。结合视觉和文本信息的多模态理解对于提高模型有效应对现实世界挑战的能力至关重要。因此,研究人员正积极扩展大规模语言模型,以集成多模态信息处理能力。视觉语言模型(VLMs),如GPT-4[38]、LLaMA适配器[10]和LLaVA[33, 32],已被开发出来以增强LLMs的视觉理解能力。这些VLMs是处理一系列任务(包括视觉问答(VQA)、图像字幕和视觉内容生成)的基本模型。

尽管取得了成功,但先前的研究主要集中在减少语言模型的参数的同时保留Transformer架构。然而,这种方法并没有解决Transformer自注意力机制中固有的计算效率低的问题,该机制的计算复杂度与序列长度的平方成正比。为了解决这一瓶颈,最新的研究工作设计了一种新的架构(Mamba-2),其核心层是对Mamba选择性SSM的改进。状态空间模型(SSM)已被广泛研究为一种有效的替代方案。SSM结合了循环神经网络(RNNs)和卷积神经网络(CNNs)的元素,提供了序列长度的线性缩放以及有效的训练和推理。它比Transformer快2-8倍,并在语言建模方面继续与Transformer竞争。

为此,本文提出了一种新的视角,即直接使用状态空间模型(SSM)作为主干。具体来说,本文使用Mamba-2语言模型作为本文VLM的基础模型。本文介绍了ML-Mamba,这是一项将状态空间模型应用于多模态学习任务的工作。我们的方法利用预训练的Mamba-2语言模型作为主干,取代了传统的基于Transformer的模型,如LLaMA[47]。我们通过一种名为Mamba-2扫描连接器(MSC)的新型多模态连接器进一步增强了ML-Mamba,该连接器包括一个Mamba-2视觉选择性扫描模块(MVSS)和一个专为丰富视觉序列的二维因果建模而设计的SwiGLU模块。MVSS模块探索了两种不同的扫描机制:双向扫描机制(BSM)和交叉扫描机制(CSM)。此外,我们还研究了不同视觉编码器、预训练Mamba-2语言模型变体和多模态连接器的组合,以优化视觉和语言信息的融合。

在一系列多模态学习基准测试上进行的广泛实验证明了ML-Mamba的有效性。本文的模型不仅与其他类似大小的小型多模态大型语言模型(MLLMs)相比具有竞争性的表现,而且在包括LLaVA v1.5[32]的7B和13b版本在内的几个突出的基准测试中超越了更大的MLLMs。

本文的主要贡献如下:

  1. 提出了一种新颖且有效的方法,即ML-Mamba,它探索并利用了与最新Mamba-2相结合的多模态学习任务。与采用原始Mamba的多模态模型相比,基于Mamba-2的多模态大型语言模型具有更高的推理性能和有效性。同时,ML-Mamba还为超越基于Transformer架构的多模态大型语言模型提供了新的框架选择。

  2. 通过实证探索了ML-Mamba中不同组件的影响,并提出了一种新型多模态连接器,即Mamba-2扫描连接器(MSC)。MSC包括Mamba-2视觉选择性扫描(MVSS)模块和SwiGLU模块,这两个模块增强了表示能力。

  3. 在不同的多模态学习基准上进行了广泛的实验。数值结果表明,ML-Mamba与现有的多模态大型语言模型相比具有竞争性的表现。

Method

Mamba基础

Mamba架构源自状态空间序列模型[15],该模型通过扩展的隐藏状态 h_t ∈ R^N 在时间t处对一维函数或序列 x(t) ∈ R → y(t) ∈ R 进行建模。这些隐藏状态随时间根据参数A、B、C演变,并受线性常微分方程(ODE)支配:

为了将这一连续系统中的参数离散化,一种常见的方法是引入时间尺度参数∆,使用零阶保持(ZOH)模型[39]将连续的A、B转换为离散的A、B:

利用此转换,等式1可以重写为:

然后,利用矩阵K来实现高效计算:

其中,k ∈ [0, L),L是输入序列的长度。还有 y = {y_1, ..., y_L},x = {x_1, ..., x_L},而 \bar{K} ∈ R^L可以视为卷积核。

通过将修改后的并行Mamba块与SSD作为内部SSM层结合使用,形成了Mamba-2架构(如图4(a)所示)。在Pile数据集上,不同大小的Mamba-2模型的表现表明,它在标准下游评估中与Mamba和其他开源Transformer模型相当或更优。

ML-Mamba模型

整体架构

Mamba的架构由四个主要组件组成:一个预训练的视觉编码器、一个随机初始化的多模态连接器(称为Mamba-2扫描连接器MSC)、一个预训练的大型语言模型(Mamba-2 LLM),如图1所示。以图像为输入,首先通过视觉编码器提取视觉特征。然后,将提取的视觉特征序列输入到多模态连接器(MSC)中,其输出通过多层感知机(MLP)投影器映射到LLM。来自视觉投影器的输出向量与标记化的文本查询相结合,并输入到Mamba-2 LLM中。最后,Mamba-2 LLM生成相应的响应。

视觉编码器

本文集成了DINOv2和SigLIP作为本文的视觉主干。这种融合背后的原理是,将DINOv2捕获的低级空间特征与SigLIP提供的语义特征相结合,可以提高下游任务的性能。给定输入图像X_v ∈ R^{C×H×W},视觉编码器将图像划分为 N_v = HW/P^2个大小相等的块,其中P^2表示块的大小。两个视觉编码器都将块化的图像作为输入令牌序列进行处理,并将它们的输出连接起来,形成紧凑的视觉表示Vimg ∈ R^{N_v×D_v}:

这些输出随后被引导到专用的任务特定头部,D_v表示如上所述生成的令牌的维数。

多模态连接器

多模态连接器在视觉特征和语言模型之间起作用,以确保视觉和语言信息的无缝集成。在本研究中,本文探索了一种名为Mamba-2扫描连接器(MSC)的新型多模态连接器架构,旨在解决计算机视觉中因果关系不明确的挑战。传统的状态空间模型(SSM)通常用于处理具有因果关系的序列数据,如语言序列,但这种方法显然不适用于视觉编码器生成的非因果视觉序列。

MSC模块的核心是二维Mamba-2视觉选择性扫描(MVSS)模块和SwiGLU模块的组合。本文尝试将这个模块集成到ML-Mamba多模态学习框架的多模态连接器中。

具体来说,本文研究了三种多模态连接器的变体:

MLP:一个三层的多层感知机(MLP)(见图2(a)),用于对齐视觉和文本的特征。

MSC-MLP(基础版):它结合了称为Mamba-2扫描连接器(MSC)模块的多模态连接器,该模块不包括SwiGLU模块,旨在增强二维非因果视觉信息的处理能力。随后,MLP用于对齐视觉和文本的特征(见图2(b))。

MSC-MLP(高级版):此变体结合了MSC模块和MLP,其中MSC模块包含SwiGLU(见图5)模块,用于更复杂的特征提取和模式学习(见图2(c))。

MSC模块通过引入两种二维扫描机制,弥合了一维序列处理能力(SSM的典型特征)和二维非因果视觉信息之间的差距。这些扫描机制包括:

双向扫描机制(BSM):在前后两个方向上扫描图像的互补特征,以捕获更广泛的上下文,同时不增加计算复杂度(如图3顶部所示)。相应的模型结构如图4(b)所示。

交叉扫描机制(CSM):将图像块特征沿行和列展开成序列,并以四个方向(对角线穿过图像)扫描它们(如图3底部所示)。相应的模型结构如图4(c)所示。

扫描后处理与多模态学习目标

扫描后,这些特征序列经过Mamba-2层处理,并重新排列成原始图像的块顺序,最后合并成一个综合表示,用于后续的多模态学习任务。该方法的目标是提高复杂视觉数据的建模能力,特别是当涉及多模态输入和非线性关系建模时,以增强计算机视觉任务的性能和鲁棒性。

多模态连接器输入与处理

如图2(a)所示,多模态连接器的输入是通过基于Transformer的视觉编码器从输入图像中提取的序列图像块特征 V_img。这些特征向量随后被传递到一个三层的多层感知机(MLP)中:

如图2(b)所示,多模态连接器的输入同样是通过基于Transformer的视觉编码器从输入图像中提取的序列图像块特征 V_img。这些特征向量首先通过一个Mamba-2扫描连接器(MSC)模块,以获得视觉扫描特征 V_scan。在MSC模块之后,输出向量V_scan再被传递到一个三层的多层感知机(MLP)中:

如图2(c)所示,前馈传递过程可以表述为:

Mamba-2大型语言模型

Mamba-2语言模型作为主要的语言处理组件,负责理解和生成文本。视觉编码器和多模态连接器的工作流程设计确保了视觉信息可以有效地传输到Mamba-2语言模型,使模型能够处理和理解复杂的多模态数据。

其中fL表示语言处理函数,fT表示文本处理函数,Q为输入的文本查询。

训练过程

本文首先使用LAION-CC-SBU数据集的558K子集来对齐Mamba-2扫描连接器(MSC)和MLP投影器。在微调阶段,本文同时优化了Mamba-2扫描连接器(MSC)、投影器和Mamba大型语言模型(LLM)。这一全面的训练工作在8个NVIDIA A100 GPU上进行。微调过程跨越了两个周期,随机从LLaVA v1.5中使用的混合数据集中采样,该数据集总共包含665K个视觉多轮对话样本和纯文本对话数据。

  • 21
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值