MambaIR:状态空间模型图像恢复的简单基线
近年来,图像恢复技术取得了长足的进步,这在很大程度上归功于现代深度神经网络的发展,如 CNN 和 Transformers。然而,现有的修复骨干往往面临全局接受域和高效计算之间的两难困境,阻碍了它们在实践中的应用。最近,选择性结构化状态空间模型,特别是改进的 Mamba 模型,在线性复杂度的长程依赖建模方面显示出了巨大的潜力,为解决上述困境提供了一条途径。然而,标准的 Mamba 在低层视觉方面仍然面临着一定的挑战,如局部像素遗忘和通道冗余。在这项工作中,我们引入了一种简单但有效的基线,称为 MambaIR,它同时引入了局部增强和通道注意来改进普通的 Mamba。
VideoMamba:高效视频理解的状态空间模型
针对视频理解中局部冗余和全局依赖的双重挑战,该工作创新性地将 Mamba 适配到视频域。提出的 VideoMamba 克服了现有 3D 卷积神经网络和视频转换器的局限性。 它的线性复杂性算子支持高效的长期建模,这对于高分辨率的长视频理解至关重要。广泛的评估揭示了 VideoMamba 的四项核心能力。
Motion Mamba:高效且长序列的运动生成
人类运动生成是生成性计算机视觉中的一个重要目标,而实现长序列和高效的运动生成仍然具有挑战性。状态空间模型(SSM)的最新进展,特别是 MAMBA,通过高效的硬件感知设计在长序列建模方面展示了相当大的前景,这似乎是在此基础上建立运动生成模型的一个有前途的方向。然而,由于缺乏专门的运动序列建模设计架构,使 SSMS 适应运动生成面临着障碍。为了应对这些多方面的挑战,我