【持续更新】Frequency + Mamba 论文汇总

向岸看

已于 2024-11-25 18:14:20 修改

阅读量2.2k

点赞数 15

文章标签： 1024程序员节 Mamba 频率域

于 2024-10-24 22:56:52 首次发布

本文链接：https://blog.csdn.net/qq_45981086/article/details/143215086

版权

1、 Wave-Mamba（A类，ACM MM会议）

题目：Exchange（交换） Wave-Mamba: Wavelet State Space Model（小波状态空间模型）for Ultra-High-Definition（超高清）Low-Light Image Enhancement（弱光图像增强）

论文：arxiv.org/pdf/2408.01276

源码：AlexZou14/Wave-Mamba: ACMMM2024: Wave-Mamba: Wavelet State Space Model for Ultra-High-Definition Low-Light Image Enhancement

一、摘要

研究背景：超高清（UHD）技术以其卓越的视觉质量受到广泛关注，但它也给弱光图像增强（LLIE）技术带来了新的挑战。

研究问题：UHD图像本身具有较高的计算复杂度，导致现有的UHD LLIE方法采用高倍下采样来降低计算成本，而这又导致了信息丢失。

动机/启发：小波变换不仅允许在不丢失信息的情况下进行下采样，而且还将图像内容与噪声分离。该方法使状态空间模型在建模长序列时不受噪声的影响，充分利用了状态空间模型的长序列建模能力。

在此基础上，本文提出了一种新的Wave-Mamba 图像去噪方法，基于小波域两个关键思想：

1）图像的大部分内容信息存在于低频分量，而高频分量的信息较少。
2）高频成分对弱光增强的结果影响最小。

主要工作：

1）为了有效地对 UHD 图像的全局内容信息进行建模，提出了一种 低频状态空间块（LFSSBlock），该模块通过对SSM的改进来集中 恢复低频子带 的信息。

2）此外，提出了一种 高频子带信息的高频增强块（HFEBlock），利用 增强后的低频信息对高频信息进行校正 ，有效地恢复出正确的高频细节。

实验效果：通过综合评估，我们的方法表现出了上级的性能，在保持更精简的架构的同时，显著超越了当前的领先技术。

二、方法

Wave-Mamba 的主要架构，如下图所示：

Wave-Mamba 是使用多尺度 UNet 结构构建的，选用DWT下采样。

提出一个有效的 Mamba 架构来创建一个 低频状态空间模块（LFSSBlock），目标是信息丰富的低频分量。利用状态空间模型的线性复杂性和强大的信息建模能力增强低频信息。这有效地平衡了性能和计算成本。
提出了一种 高频增强模块（HFEBlock），利用 增强的低频分量来校正高频信息，确保网络准确捕获高频纹理信息。

HFEBlock有两个输入一个同层的经过 SKFF 模块增强的下采样特征，另一个是下一层经过 LFSS 模块进行低频增强的下采样特征。

选择性核特征融合（SKFF）相当于 SKNet 中 SK 模块，这里直接引用。

最后，使用元素求和来获得高质量（HQ）输出图像 𝐼ℎ𝑖𝑔ℎ 。

A. Low-Frequency State Space Block（低频状态空间模块）

组成：LFSS模块主要由一个 VSSM（视觉状态空间）模块 和一个 GFFN（门前馈网络）组成。

式中，VSSM(·) 为VSSM函数，GFFN(·) 为GFFN函数。LN(·) 表示层归一化操作。Z代表 LFSS模块的中间隐变量。β 和 γ 表示可学习的比例因子。

作用：VSSM（视觉状态空间）模块，用于捕获空间远程依赖关系。GFFN（门前馈网络）提高信道信息流的效率。

B. High-Frequency Enhance Block (高频增强模块)

为了更有效地 增强高频分量内的特征表示，本文提出 构建从低频分量到高频分量的特征变换。HFE 模块通过在低频分量中 选择更有代表性的高频相似特征 来丰富高频分量中缺失的信息。

组成：HFE模块包含一个 频率匹配变换注意力（FMTA）和一个频率校正前向网络（FCFN）。

作用：分别用于探索注意力机制和前向网络中的 频率匹配 和 频率校正。

频率匹配变换在频率匹配变换注意力中用于增强 query 嵌入。

1）频率匹配变换（Frequency Matching Transformation）：

作用：FMT 旨在将低频特征转换为高频特征，从而通过相关匹配方案为高频分量提供更具描述性的特征，以实现更好的增强。

过程：首先，计算 高频分量和低频分量 之间的 相似度矩阵。随后，选择 TOP-1 的向量 D。然后根据向量 D 的索引，选择低频分量中的相似通道作为输出，D可以表示为：

最后，将选择的高频特征 𝑌𝑠𝑒𝑙𝑒𝑐𝑡𝑒𝑑 与原始高频特征级联，并利用并行分支融合高频特征。

具体来说，一个分支使用1 × 1卷积卷积和Sigmoid函数计算注意力图。另一个分支进行3 x 3卷积 𝑊𝑑。然后，两个分支的输出相乘，并通过另一个1 × 1卷积卷积合并，以产生输出特征 𝐹𝑜𝑢𝑡 。

Q：在由高频分量和低频分量计算得到的 相似度矩阵中，特征值为TOP-1的向量一定可以匹配高频信息吗？

A：推理：高频分量和低频分量计算得到的 相似度矩阵中，top-1的向量最起码能代表低频信息中与高频信息中最相近的特征信息。

总结：一个 VMamba + GFFN 模块用于低频信息，一个改进的 Muti-Atten 用于高频信息。模型简单，但是总体思维是好的，利用低频信息中与高频信息相近的特征，引导高频信息增强。

2、 S2Mamba（高光谱分类）

S2Mamba 的主要架构，如下图所示：

1）PCS：设计了 图像块交叉扫描模块（Patch Cross Scanning Module，PCS），通过 将图像数据扁平化为多个像素序列，并采用选择性结构化状态空间模型对其进行扫描，挖掘相邻像素之间的空间上下文关系，从而促进土地覆盖的识别。
2）BSS：提出了一种 双向光谱扫描模块（Bi-directional Spectral Scanning Module，BSS），通过选择性结构化状态空间模型 对连续波段进行扫描，充分挖掘光谱的鉴别特性，增强了模型的分类能力。
3）SMG：为了优化HSI的空间和光谱属性，提出了 空间-光谱混合门（Spatial-spectral Mixture Gate，SMG），通过特征之间的自适应竞争来控制两个特征的主导地位，进一步改善模型性能。 (频域和空间域混合)

BSS（双向光谱扫描），简单地将高光谱图像patch的沿空间维度展开，对 光谱维度 进行波段扫描。（有点类似通道扫描）

总结：一个双分支的空间 VMamba 和光谱（通道） VMamba 组成，最后通过一个混合门控进行融合。

光谱维度即为通道维度。

3、Mamba-Like Linear Attention (MLLA)（已被 NeurIPS 接受）

在本文中，揭示了强大的 Mamba 模型与线性注意力Transformer 惊人的相似之处，后者在实践中通常表现不佳。通过探索有效的 Mamba 和低于标准的线性注意力Transformer之间的相似性和差异，提供了全面的分析，以揭开 Mamba 模型成功背后的关键因素。

线性注意力，公式如下：

线性注意力也可以在自回归模型中实现，将第i个标记的感受野限制到进行标记，即，令牌j，j ≤ i。这种因果线性注意力的公式如下：

(线性注意力在回归模型中的表示形式)

进一步推导，循环线性注意力形式如下：

选择性状态空间模型（Mamba），公式如下：

（参数Bi，Ci，∆i依赖于输入xi的参数）

为了方便后续的推导，本文对选择性状态空间模型的 三处修改 ：

重写后的公式如下：

基于上述两个公式，Mamba 与 Linear Attention 的统一公式，如下：

具体来说， $\boldsymbol{h_i \sim S_i \in \mathbb{R}^{d\times C}, B_i \sim K^T_i \in \mathbb{R}^{d\times 1}, x_i \sim V_i \in \mathbb{R}^{1\times d}, C_i \sim Q_i \in \mathbb{R}^{1\times d}}$ 。（一个全新的回归模型公式）

4、FreqMamba（已被 A类，ACM MM会议接受）

题目：FreqMamba（频率Mamba）: Viewing Mamba from a Frequency Perspective （频率视角的Vision Mamba） for Image Deraining（图像去雨）

论文（ACM MM会议，CCF A）：[2404.09476] FreqMamba: Viewing Mamba from a Frequency Perspective for Image Deraining (arxiv.org)

源码：aSleepyTree/FreqMamba (github.com)

研究背景：被雨线污染的图像往往会丢失对感知至关重要的频率信息，图像去雨旨在解决这一问题，其依赖于全局和局部的退化建模。最近的研究证明了Mamba利用图像块之间的局部相关性来感知全局和局部信息的有效性和高效性，然而，很少有人尝试将其扩展到图像去噪的频率分析，限制了其感知与频率建模相关的全局退化（如傅里叶变换）的能力。

主要工作：本文提出FreqMamba，一种有效和高效的范式，利用Mamba和频率分析之间的互补来进行图像去噪。该方法的核心在于从两个角度对Mamba进行频率分析扩展：

利用频带对 Mamba 进行扩展以挖掘频率相关性；
将其与傅里叶变换相结合以进行全局退化建模。

FreqMamba 引入了互补的三层交互结构，包括 Spatial Mamba、Frequency Mamba 和 傅里叶全局建模。Frequency Mamba 将图像分解为不同频率的子带，允许从频率维度进行二维扫描。利用 Mamba 独特的数据依赖属性，使用不同尺度的有雨图像为网络提供退化先验，从而促进有效的训练。

实验效果：广泛的实验表明，所提出方法在视觉和数量上都优于最先进的方法。

总结：FreqSSM 模块由三条路径组成分别是 Spatial Branch、Frequency Band Branch、Frequency Band Branch，分别对应 Spatial mamba、FreqMamba 和傅里叶图像变换，构成一个多尺度的采样方式。FreqMamba 的图像扫描方式十分巧妙，利用离散小波变换（DWT）作为桥梁来沟通空间和频率域，由低频分量向高频分量进行扫描，再进行 backwards。