NIPS 2024 | 耦合Mamba：基于耦合状态空间模型的增强多模态融合

最新推荐文章于 2025-05-24 15:58:27 发布

Python_金钱豹

最新推荐文章于 2025-05-24 15:58:27 发布

阅读量828

点赞数 9

文章标签： mvc 人工智能机器学习算法计算机视觉缓存

本文链接：https://blog.csdn.net/Python_cocola/article/details/144971049

版权

论文信息

题目：Coupled Mamba: Enhanced Multi-modal Fusion with Coupled State Space Model

耦合Mamba：基于耦合状态空间模型的增强多模态融合

作者：Wenbing Li, Hang Zhou, Junqing Yu, Zikai Song, Wei Yang

论文创新点

耦合状态链：作者提出了耦合状态空间模型（Coupled SSM），通过耦合多个模态的状态链，同时保持模态内状态过程的独立性。
硬件感知的并行性：为了确保耦合Mamba模型能够充分利用硬件感知的并行性，作者推导了一种全局卷积核，用于并行计算。
状态求和与转移：作者提出了一种状态求和与转移方案，通过在状态转移之前对多模态状态进行求和，从而在保持性能的同时大幅减少了内存开销和计算复杂度。
动态捕捉多模态交互：与传统的多模态融合方法不同，作者的方法通过动态捕捉模态内和模态间的隐藏状态，实现了更高效的多模态融合。

摘要

多模态融合的本质在于利用不同模态之间固有的互补信息。然而，现有的融合方法依赖于传统的神经网络架构，无法充分捕捉模态间交互的动态特性，特别是在存在复杂的模态内和模态间相关性的情况下。近年来，状态空间模型（State Space Models, SSMs）的进展，特别是以Mamba模型为代表，成为有前景的候选者。特别是，其状态演化过程暗示了更强的模态融合范式，使得在SSMs上进行多模态融合成为一个有吸引力的方向。然而，由于SSMs的硬件感知并行设计，融合多个模态对其来说具有挑战性。为此，作者提出了耦合SSM模型，用于耦合多个模态的状态链，同时保持模态内状态过程的独立性。具体来说，在作者的耦合方案中，作者设计了一种模态间隐藏状态的转移方案，其中当前状态依赖于其自身链的状态和前一时间步邻近链的状态。为了完全符合硬件感知的并行性，作者设计了一种加速的耦合状态转移方案，并推导出其对应的全局卷积核以实现并行计算。通过在CMU-MOSEI、CH-SIMS、CH-SIMSV2等多个数据集上的多领域输入实验，验证了作者模型的有效性，相较于当前最先进的方法，F1得分分别提高了0.4%、0.9%和2.3%，推理速度提高了49%，GPU内存节省了83.7%。结果表明，耦合Mamba模型能够实现增强的多模态融合。

3. 耦合状态空间模型

在本节中，作者详细介绍了耦合Mamba方法，通过引入多模态历史状态实现多模态融合。如图2所示，它包含两个部分：状态耦合和状态空间模型。

耦合状态转移

对于多模态数据输入，一种简单的方法是将多模态特征聚合为一个特征，并使用单一的Mamba模型进行处理。然而，这种方法忽略了模态内的传播。受耦合隐马尔可夫模型（CHMM）的启发，一个更优雅的解决方案是建模相互模态转移概率如下：

其中是从所有模态到当前模态的概率转移矩阵。对于具有M个多模态输入的SSM，作者有M个状态传播序列。与CHMM一致，作者可以通过耦合所有模态状态来建模模态的状态转移：

考虑到内存开销和计算效率，这种建模大大增加了参数数量和计算复杂度。作者提出了一种更节省内存的方法，通过在状态转移之前进行求和，从而实现类似的性能并更加高效。因此，作者的耦合SSM形式为：

其中作者使用来建模状态求和后的整体状态转移。这种建模的一个小缺点是作者需要所有模态具有相同的状态，这可以通过使用投影层轻松解决。

并行性和效率分析

Mamba与传统循环神经网络（RNNs）的主要区别在于状态之间的转移不依赖于任何激活函数。这一特性使其能够通过迭代方程（3）预先计算中间结果，从而实现并行计算。然而，耦合Mamba在Mamba的基础上增加了多模态状态信息，这给保持Mamba并行化算法带来了新的挑战。为了解决这个问题，作者推导了一个适用于耦合Mamba的全局卷积核，以确保耦合Mamba能够继续享受Mamba并行计算带来的优势，从而有效提高模型的吞吐量和推理速度。详细的吞吐量和推理速度分析将在后续章节中深入讨论。

在引入不同模态的状态信息后，作者通过3.2了解了整个状态转移过程（6）。通过推导方程（6），即分解，作者可以得到以下结果：

其中。根据方程（7），可以扩展到每个模态的状态信息，作者使用以下公式计算输出：

由此，可以得到适用于耦合Mamba的全局卷积核。

全局卷积核可以用于对序列数据进行卷积操作。在卷积操作中，每个卷积核和输入子区域的计算是相互独立的，允许对不同的卷积核或输入块进行并行处理。

4. 实验

表5显示了在CH-SIMSV2数据集上的结果，该数据集目前仅支持回归任务。从表中可以看出，作者提出的方法在F1-Score和Acc-2上分别取得了2.7%和3%的巨大改进，表明了作者方法的有效性。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述