Hybrid Mamba:一种有前途的背景下 RL,用于长期决策
最近的研究表明,变压器模型在强化学习(RL)中具有显著的优势,在强化学习中,决策问题被描述为序列生成。基于转换器的代理可以通过提供任务上下文,例如称为 In-Context RL 的多个轨迹,在在线环境中实现自我改进。然而,由于注意在变压器中的二次计算复杂性,当前的上下文 RL 方法随着任务范围的增加而遭受巨大的计算代价。相比之下,Mamba 模型以其处理长期依赖关系的高效能力而闻名,这为上下文中的 RL 提供了解决需要长期记忆的任务的机会。为此,我们提出了一种结合了变压器和 Mamba 在高质量预测和长期记忆方面的优点的混合Mamba(HM)。具体地说,HM 首先通过 Mamba 模型从长期记忆中生成高价值的子目标。然后,我们使用子目标来提示转换器,建立高质量的预测。实验结果表明,HM 在 D4RL、网格世界和 Tmaze 基准测试等长期和短期任务中都达到了最先进的水平。
多尺度 VMamba:分层视觉状态空间模型中的分层
尽管视觉变形器(VITS)在各种视觉任务中取得了显著的成就,但它们受到二次复杂性的限制。最近,状态空间模型(SSM)由于其全局接受域和关于输入长度的线性复杂性而受到广泛关注,在自然语言处理和计算机视觉等领域显示出巨大的潜力。为了提高 SSMS 在视觉任务中的性能,广泛采用了多扫描策略,这导致 SSMS 存在显著的冗余。为了更好地权衡效率和性能,我们分析了多扫描策略成功的潜在原因,其中远程依赖起着重要作用。在此基础上,我们引入了多尺度视觉Mamba(MSVMamba)来保持 SSMS 在有限参数视觉任务中的优势。它在原始和下采样的特征图上都采用了多尺度 2D 扫描技术,这不仅有利于远程依赖学习,而且降低了计算成本。此外,我们还集成了卷积前馈网络(ConvFFN)来解决信道混合的不足。实验表明,MSVMamba 模型具有很强的竞争力,在 ImageNet 上达到了 82.8%的 TOP-1 精度,在 MASK R-CNN 框架下达到了 46.9%的盒图和 42.2%的实例图,在 COCO 上达到了 1 倍的训练进度,在 ADE20K 上达到了 47.6%的单尺度测试。
Hamba:利用图形引导双扫描 Mamba 进行单视图 3D 手部重建
由于手的灵活性、不同的姿势、截断和物体交互过程中的遮挡,从一幅 RGB 图像重建 3D 手是一项具有挑战性的任务。现有的方法使用基于注意力的变换来学习 3D 手势和形状,但这些方法不能捕捉不同关节之间的语义关系。此外,单纯依靠注意力机制进行 3D 手部网格重建并不能充分利用关节空间序列。为了解决这些问题,我们提出了一种新的图引导的 Mamba 框架,称为 Hamba,它将图学习和状态空间建模联系起来。我们的核心思想是将 Mamba 的扫描重新定义为图形引导的双向扫描,使用一些有效的标记进行 3D 重建。这使得我们能够学习关节关系和空间序列,以提高 3D 手部重建的性能。具体地说,我们设计了一个图引导状态空间(GSS)块来学习关节的图结构关系和空间序列。与基于注意力的方法相比,GSS 模块在改进语义关系学习的同时减少了 88.5%的令牌,并且可以作为其他任务的即插即用模块。此外,我们还通过一个融合模块将全局空间标记与局部图结构特征相结合。通过使用 GSS 和融合模块,Hamba 有效地利用了图引导的状态空间建模特征,并同时考虑了全局和局部特征,共同提高了性能。多基准测试和野外测试的广泛实验表明,HAMBA 的性能明显优于最先进的方法,在 FreiHAND 基准上获得了 5.3mm 的 PA-MPVPE 和 0.992 的 F@15 mm。Hamba 还在两项具有挑战性的 3D 手重建比赛中获得第一名。
ECMamba:利用 Retinex 指导整合选择性状态空间模型,以实现高效的多次曝光纠正
曝光校正(EC)旨在恢复在曝光过多或曝光不足的情况下拍摄的图像的适当曝光条件。虽然现有的深度学习模型显示出了令人振奋的结果,但很少有人将 Retinex 理论完全嵌入到他们的体系结构中,这突显了当前方法的差距。此外,高性能和效率之间的平衡仍然是曝光校正任务中未被探索的问题。受 Mamba 强大而高效的序列建模的启发,我们提出了一种新的基于 Textbf{Mamba}的双通道校正框架ECMamba,每条通道分别用于恢复反射率和照度图。具体地说,我们首先推导了 Retinex 理论,并训练了一个 Retinex 估值器,该估值器能够将输入映射到两个中间空间,每个中间空间分别近似目标的反射率和照度图。
MambaLLIE:利用全球后局部状态空间进行隐式视网膜感知弱光增强
微光图像增强的最新进展主要是基于 Retinex 的学习框架,该框架利用卷积神经网络(CNN)和 Transformers。然而,Vanilla Retinex 理论主要解决了全局照明退化问题,而忽略了黑暗条件下的噪声和模糊等局部问题。此外,由于 CNN 和 Transformers的接受范围有限,它们很难捕捉到全球退化。虽然状态空间模型(SSM)在长序列建模中显示出了良好的前景,但它们在结合视觉数据中的局部不变量和全局上下文方面面临着挑战。在本文中,我们介绍了 MambaLLIE,一种隐式 Retinex 感知的微光增强器,其特点是全局然后局部状态空间设计。我们首先提出了一种局部增强状态空间模块(LESSM),它在 2D 选择性扫描机制中加入了增强的局部偏置,通过保持局部 2D 依赖来增强原始 SSM。此外,隐式 Retinex 感知选择内核模块(IRSK)使用空间变化的操作动态选择特征,通过自适应内核选择过程适应不同的输入。我们的全局然后局部状态空间块(GLSSB)集成了 LESSM 和 IRSK,并以层归一化(LN)为核心。这种设计使 MambaLLIE 能够实现全面的全局远程建模和灵活的局部特征聚合。广泛的实验表明,MambaLLIE 的性能明显优于最先进的 CNN 和基于Transformer的方法。
3DET-Mamba:端到端 3D 对象检测的因果序列建模
基于Transformer的体系结构已被证明在从点云中检测 3D 对象方面取得了成功。然而,随着点云分辨率的提高,注意机制的二次方复杂性难以编码丰富的信息。近年来,Mamba 等状态空间模型因其线性复杂性和对语言理解的长序列建模能力而备受关注。为了挖掘 MAMBA 在 3D 场景级感知方面的潜力,我们首次提出了一种新的基于 SSM 的室内 3D 目标检测模型 3DET-MAMBA。具体地说,我们将点云分成不同的块,并使用轻量级但有效的内 Mamba 来捕获局部几何信息。为了从全局的角度观察场景,我们引入了一种新的双 Mamba 模块,该模块从空间分布和连续性的角度对点云进行建模。此外,我们还设计了一个查询感知的 Mamba 模块,在排序查询的指导下将上下文特征解码为对象集。大量的实验表明,我们提出的3DET-MAMBA 在室内 3D 检测基准(如ScanNet)上优于以前的 3DETR,将 AP25/AP50 分别从 65.0/47.0 提高到 70.4/54.4%。
Decision Mamba:离线 RL 具有自进化规则化的多粒度状态空间模型
虽然基于Transformer结构的条件序列建模在处理离线强化学习(RL)任务方面已经证明了其有效性,但它很难处理分布外的状态和动作,现有的工作试图通过使用学习的策略来增加数据或使用基于值的 RL 算法来添加额外的约束来解决这一问题。然而,这些研究仍然未能克服以下挑战:(1)没有充分利用步间的历史时间信息,(2)忽略了状态、动作和返回到 GO(Return-to-Go,RTG)之间的局部步内关系,(3)用噪声标签过度拟合次最优轨迹。为了应对这些挑战,我们提出了一种新的多粒度状态空间模型(SSM),该模型采用一种自进化的策略学习策略,对历史隐藏状态进行显式建模,并利用 MANBA 体系结构来提取时间信息。为了捕捉状态-动作-RTG 三元组之间的关系,设计了一个细粒度的 SSM 模块,并将其集成到原始的粗粒度 SSM 中,从而形成了一种新的适合离线 RL 的 MANBA 体系结构。最后,为了缓解噪声轨迹的过拟合问题,提出了一种基于渐进正则化的自进化策略。该策略通过使用自身过去的知识来改进次优操作,从而增强了其对噪声演示的稳健性。在不同任务上的广泛实验表明,DM 的性能大大优于其他基线。
VMamba:视觉状态空间模型
设计计算高效的网络架构仍然是计算机视觉中持续的必需品。在本文中,我们将状态空间语言模型 Mamba 移植到 VMamba 中,VMamba 是一种在线性时间复杂性下工作的视觉主干。VMamba 的核心是具有 2D 选择性扫描(SS 2D)模块的视觉状态空间(VID)块堆栈。通过沿着四条扫描路线穿越,SS 2D 有助于弥合 1D 选择性扫描的有序性质和 2D 视觉数据的非顺序结构之间的差距,从而促进了从各种来源和角度收集上下文信息。基于 NV 块,我们开发了一系列 VMamba 架构,并通过一系列架构和实施增强来加速它们。大量实验展示了 VMamba 在各种视觉感知任务中的良好性能,凸显了与现有基准模型相比其在输入扩展效率方面的优势。
QuadMamba:学习基于四叉树的选择性扫描视觉状态空间模型
状态空间模型的最新进展,特别是 MAMBA,已经显示出比主要的变压器模型更优越的性能,特别是在将计算复杂性从二次降低到线性方面。然而,由于视觉数据的独特特征,例如图像中的空间局部性和邻接性,以及视觉标记之间信息粒度的巨大差异,使 Mamba 从语言适应视觉任务出现了困难。现有的 VISION Mamba 方法要么以栅格扫描的方式将标记平整成序列,打破图像的局部邻接,要么手动将标记分割成窗口,这限制了它们的远程建模和泛化能力。为了解决这些局限性,我们提出了一种新的视觉 Mamba 模型 QuadMamba,该模型通过基于四叉树的图像分割和扫描来有效地捕获不同粒度的局部依赖关系。具体地说,我们的基于四叉树的轻量级扫描模块学习在学习的窗口象限内保持空间区域的 2D 局部性。在自适应地将令牌划分为窗口象限之前,该模块根据每个令牌的特征来估计每个令牌的局部性分数。还引入了全方位的窗口移动方案,以获取不同局部区域之间更完整和更丰富的特征。为了使离散化的四叉树划分端到端可训练,我们进一步设计了一种基于 Gumbel-Softmax 及其直通梯度估计器的序列掩蔽策略。大量的实验表明,QuadMamba 在
图像分类、目标检测、实例分割和语义分割等各种视觉任务中都取得了最好的性能。
NIPS 2024论文合集PDF版
由于关注点的不同,这篇博客可能无法包含所有该方向的论文。NIPS 2024 论文题目与摘要这份资料收录了NIPS 2024所有论文的标题和摘要,总共有3547页,而且是中英文对照的,读起来方便多了。
如果你对人工智能领域感兴趣,或者想找找灵感,这绝对是个好资源。翻一翻最新的研究,说不定就能找到一些新的想法或思路。平时闲下来的时候看看,既增长知识又能跟上最新的技术趋势,挺实用的。有空的话不妨看看,应该会有收获的。
NIPS 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpyUlp5v
CVPR 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpeYmplt