【ECCV 2024】傅里叶卷积混合器

最新推荐文章于 2025-05-06 15:35:58 发布

是小果果蛋儿啊

最新推荐文章于 2025-05-06 15:35:58 发布

阅读量1.9k

点赞数 22

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_43275608/article/details/144722662

版权

论文题目：Efficient Frequency-Domain Image Deraining with Contrastive Regularization

论文链接：https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/05751.pdf

官方github：https://github.com/deng-ai-lab/FADformer

所属机构：北京航空航天大学航天学院

文章讨论的是单图像去雨（Single Image Deraining, SID）问题，这是一个低级图像恢复任务，目的是从雨图中恢复出干净的背景图像。

文章提出了一个名为FADformer（Frequency-Aware Deraining Transformer Framework）的新框架，它通过在频域中捕捉特征来高效去除雨水。文章指出，现有的基于Transformer的方法在全局建模方面效率不高，并且在训练中要么忽视了负样本信息，要么没有充分利用负样本中的雨迹模式。

算法性能比较：

研究背景

单图像去雨的重要性与挑战：单图像去雨是低级图像恢复中的关键任务，由于真实背景和雨分布未知，是一个具有挑战性的不适定逆问题，且雨天图像会影响下游视觉任务性能，因此该任务一直是研究热点。
传统方法的局限性：早期基于传统先验的方法通过分析统计特征去除雨渍，但在处理密集、复杂和多样的雨痕模式时往往失败。
基于学习方法的发展与问题：基于学习的方法（如 CNN 和 Transformer 架构）在图像去雨方面取得了进展，但当前主流的监督学习范式仍面临两个主要挑战：一是缺乏高效的全局建模机制，全局建模能力通常通过空间域操作实现，计算成本高且性能提升不匹配；二是对比样本利用不足，多数方法在学习过程中未充分利用负样本信息。
大多数当前的单图像去雨（SID）方法都是基于Transformer，通过全局建模实现高质量的重建。然而，它们的架构仅从空间域构建长距离特征，这在保持有效性的同时带来了显著的计算负担。

上图展示了频域对于图像去雨任务的动机和优势。它包含两个主要部分： (a) 展示了不同雨迹模式在频域中的差异性。通过独立修改雨图中的背景内容和前景雨迹，观察到具有相同雨迹但不同内容的图像在频域中相对相似，而具有不同雨迹但相同内容的图像在频域中表现出显著差异。这突出了离散傅里叶变换（DFT）对雨迹退化模式的敏感性。 (b) 展示了在频域中修复局部特征对空间域的全局影响。替换雨图像经过DFT后的幅度成分中的局部补丁，对空间域经过逆DFT后有全局影响。这展示了频域特征处理的全局建模能力。

解决的问题

现有方法在全局建模时计算成本高且效率低的问题，通过 FADformer 框架中的 FFCM 在频率域进行高效全局建模来解决。
对比样本利用不充分的问题，利用 FCR 在频率域进行对比学习，充分利用负样本信息提升去雨性能。

主要贡献

提出一种高效的频率感知 Transformer 架构（FADformer），结合频率域卷积混合器和基于去雨先验的前馈网络，能生成高质量去雨结果，同时保持全局 - 局部特性。
引入频率域对比正则化（FCR），显著提升去雨性能并改进负样本信息的利用，且该方法与模型无关，可推广到其他任务。
实验表明，该方法在合成和真实数据集上表现优异，在保持高效模型复杂度的同时取得了较好的性能。

主要内容

提出 FADformer 框架
- 整体结构：为解决全局建模效率问题，构建了分层的 FADformer 框架，包含一系列不同尺度的 FADBlock，由融合傅里叶卷积混合器（FFCM）和先验门控前馈网络（PGFN）组成。
- FFCM：基于快速傅里叶卷积（FFC），通过空间 - 频率域的卷积操作融合多尺度空间特征，比 Transformer 中的自注意力机制更高效地提取全局信息。
- PGFN：引入残差通道先验（RCP）信息，以门控方式引导前馈网络增强局部细节和结构恢复能力。
频率域对比正则化（FCR）：为解决对比样本利用不足的问题，提出 FCR，将图像编码到频率域，以地面真值为正样本、雨天图像为负样本、FADformer 输出为锚点，通过计算频率域特征的 L1 距离构建对比学习，有效提升去雨性能。

上图是了FADformer框架，包括Fused Fourier Convolution Mixer（FFCM）、Prior-Gated Feed Forward Network（PGFN）以及Frequency-domain Contrastive Regularization（FCR）三个部分，用于单图像去雨。

具体解决方法

Fused Fourier Convolution Mixer (FFCM):

FFCM是FADformer框架中的关键组件，用于在频域中进行全局特征建模。其核心思想是将空间域的特征通过快速傅里叶变换转换到频域，然后在频域中进行特征融合和处理，最后再通过逆快速傅里叶变换将处理后的特征转换回空间域。FFCM的工作原理如下：

空间域操作： 首先，输入特征图 Xt−1f 通过点卷积（point-wise convolution）提升通道维度，并被分割成两组以提取多尺度局部特征，最终获得 Xspatial。
频域变换： Xspatial 经过离散傅里叶变换（DFT），转换为实部和虚部分量，
分离实部和虚部： 将DFT的结果分解为其实部和虚部，得到两个独立的矩阵，分别表示为RR和II。
拼接实部和虚部： 将实部矩阵RR和虚部矩阵II沿着通道维度（channel dimension）拼接起来。这意味着如果RR和II原本是H×WH×W的矩阵，拼接后的矩阵将具有H×W×2H×W×2的形状，其中最后一个维度表示实部和虚部。
频域中的卷积操作： 拼接后的实部和虚部分量经过1x1卷积核的卷积操作进行调制。
逆变换回空间域： 经过调制的实部和虚部分量被分离，并通过逆离散傅里叶变换（IDFT）转换回空间域，得到 Xfrequency。
特征融合： 最后，空间域特征和频域特征通过残差结构和点卷积（PConv）进行融合，得到FFCM的输出 Xt−12。

FFCM利用傅里叶变换的两个主要优势：一是能够分离图像退化成分，雨迹模式在频域中具有显著和不变的特征；二是变换后的频域成分是从所有空间分量计算而来，自然充当全局特征提取器。

PGFN，即Prior-Gated Feed-forward Network（先验门控前馈网络），是FADformer框架中的一个关键组件，旨在利用先验知识来增强局部特征和结构的恢复能力。PGFN通过将任务特定的先验信息整合到标准的前馈网络（FFN）中，以改善网络对局部细节的处理能力。以下是PGFN的工作原理和特点：

残差通道先验（Residue Channel Prior, RCP）：
- PGFN引入了残差通道先验（RCP）的概念，这是一种从雨图中提取的结构先验信息。
- RCP通过计算雨图的最大和最小通道分量之间的方差来生成一个灰度图，这个灰度图有效地保留了清晰的结构信息，而无需学习参数。
门控机制（Gating Mechanism）：
- PGFN利用门控机制将RCP信息整合到前馈网络中，以增强网络对结构特征的感知能力。
- 门控机制通过将RCP作为门控特征，指导前馈网络在处理特征时考虑这些先验信息，从而改善局部特征的恢复。
前馈网络（Feed-forward Network, FFN）：
- PGFN基于标准的前馈网络结构，但在FFN的基础上进行了改进，以整合RCP信息。
- 在PGFN中，FFN首先通过点卷积（PConv）扩展通道维度，然后使用深度可分离卷积（DConv）细化局部特征。
并行分支结构（Parallel Branches）：
- PGFN包含两个并行分支：主分支和先验分支。
- 主分支负责处理特征图 Xt−1fXt−1f，而先验分支则处理RCP特征图。
- 先验分支通过点卷积和不同核大小的组卷积生成门控权重，这些权重随后用于调制主分支的输出。
特征融合（Feature Fusion）：
- PGFN通过哈达玛德积（Hadamard product, ⊗）将主分支和先验分支的输出结合起来，实现特征的融合。
- 这种融合允许网络在保持深度特征的同时，也保留了由RCP提供的结构信息。

Frequency-domain Contrastive Regularization (FCR):

FCR是FADformer框架中的另一个关键组件，用于在训练过程中通过对比学习提升去雨性能。FCR的工作原理如下：

频域特征提取： 使用傅里叶变换将图像编码到频域，利用频域中雨迹模式的显著特征差异。
对比学习： FCR通过测量预测输出与正样本（清晰图像）和负样本（雨图）之间的L1距离，并计算这些距离的比率，来构建对比正则化项。
损失函数构建： FCR利用正样本和负样本的频域信息，通过计算锚点（FADformer的输出）与正/负样本之间的L1距离比率，来推动模型学习区分不同雨迹模式的特征。

通过这种方式，FCR能够有效地利用负样本中的雨迹模式信息，增强模型对雨迹的识别和去除能力。傅里叶变换在这里作为一个特征提取器，帮助模型在频域中捕捉到雨迹的显著特征，从而提高去雨任务的性能。

损失函数（Loss Function）

文章中使用了两种主要的损失函数来训练FADformer模型：

像素级损失（Pixel-level Loss）:
- 这是最常见的损失函数之一，直接比较模型输出和真实图像之间的差异。文章中使用的是L1损失，也就是绝对误差损失（Mean Absolute Error, MAE），它计算模型输出和真实图像之间的平均绝对差值。L1损失鼓励模型输出更接近真实图像，并且在处理异常值时相对鲁棒。
- 公式表示为：
  ∣，其中 Y 是模型输出，IGT 是真实图像（ground truth），i,j是像素位置。
频域对比正则化（Frequency-domain Contrastive Regularization, FCR）:
- FCR是文章中提出的一种新的正则化方法，它利用频域特征来增强模型对雨迹的识别和去除能力。FCR通过比较模型输出和正样本（清晰图像）以及负样本（雨图）之间的频域特征差异，来推动模型学习区分不同雨迹模式的特征。
- FCR的公式表示为：
  ，其中 FF表示傅里叶变换，IGT 是真实图像，Y 是模型输出，Ii 是负样本，n 是负样本的数量。