【计算机视觉前沿研究热点顶会】ECCV 2024中Mamba有关的论文

本文链接：https://blog.csdn.net/A_Student10000/article/details/141920982

MambaIR：状态空间模型图像恢复的简单基线

近年来，图像恢复技术取得了长足的进步，这在很大程度上归功于现代深度神经网络的发展，如 CNN 和 Transformers。然而，现有的修复骨干往往面临全局接受域和高效计算之间的两难困境，阻碍了它们在实践中的应用。最近，选择性结构化状态空间模型，特别是改进的 Mamba 模型，在线性复杂度的长程依赖建模方面显示出了巨大的潜力，为解决上述困境提供了一条途径。然而，标准的 Mamba 在低层视觉方面仍然面临着一定的挑战，如局部像素遗忘和通道冗余。在这项工作中，我们引入了一种简单但有效的基线，称为 MambaIR，它同时引入了局部增强和通道注意来改进普通的 Mamba。

VideoMamba：高效视频理解的状态空间模型

针对视频理解中局部冗余和全局依赖的双重挑战，该工作创新性地将 Mamba 适配到视频域。提出的 VideoMamba 克服了现有 3D 卷积神经网络和视频转换器的局限性。它的线性复杂性算子支持高效的长期建模，这对于高分辨率的长视频理解至关重要。广泛的评估揭示了 VideoMamba 的四项核心能力。

Motion Mamba：高效且长序列的运动生成

人类运动生成是生成性计算机视觉中的一个重要目标，而实现长序列和高效的运动生成仍然具有挑战性。状态空间模型(SSM)的最新进展，特别是 MAMBA，通过高效的硬件感知设计在长序列建模方面展示了相当大的前景，这似乎是在此基础上建立运动生成模型的一个有前途的方向。然而，由于缺乏专门的运动序列建模设计架构，使 SSMS 适应运动生成面临着障碍。为了应对这些多方面的挑战，我