论文题目:Efficient Frequency-Domain Image Deraining with Contrastive Regularization
论文链接:https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/05751.pdf
官方github:https://github.com/deng-ai-lab/FADformer
所属机构:北京航空航天大学航天学院
文章讨论的是单图像去雨(Single Image Deraining, SID)问题,这是一个低级图像恢复任务,目的是从雨图中恢复出干净的背景图像。
文章提出了一个名为FADformer(Frequency-Aware Deraining Transformer Framework)的新框架,它通过在频域中捕捉特征来高效去除雨水。文章指出,现有的基于Transformer的方法在全局建模方面效率不高,并且在训练中要么忽视了负样本信息,要么没有充分利用负样本中的雨迹模式。
算法性能比较:
研究背景
- 单图像去雨的重要性与挑战:单图像去雨是低级图像恢复中的关键任务,由于真实背景和雨分布未知,是一个具有挑战性的不适定逆问题,且雨天图像会影响下游视觉任务性能,因此该任务一直是研究热点。
- 传统方法的局限性:早期基于传统先验的方法通过分析统计特征去除雨渍,但在处理密集、复杂和多样的雨痕模式时往往失败。
- 基于学习方法的发展与问题:基于学习的方法(如 CNN 和 Transformer 架构)在图像去雨方面取得了进展,但当前主流的监督学习范式仍面临两个主要挑战:一是缺乏高效的全局建模机制,全局建模能力通常通过空间域操作实现,计算成本高且性能提升不匹配;二是对比样本利用不足,多数方法在学习过程中未充分利用负样本信息。
- 大多数当前的单图像去雨(SID)方法都是基于Transformer,通过全局建模实现高质量的重建。然而,它们的架构仅从空间域构建长距离特征,这在保持有效性的同时带来了显著的计算负担。
上图展示了频域对于图像去雨任务的动机和优势。它包含两个主要部分: (a) 展示了不同雨迹模式在频域中的差异性。通过独立修改雨图中的背景内容和前景雨迹,观察到具有相同雨迹但不同内容的图像在频域中相对相似,而具有不同雨迹但相同内容的图像在频域中表现出显著差异。这突出了离散傅里叶变换(DFT)对雨迹退化模式的敏感性。 (b) 展示了在频域中修复局部特征对空间域的全局影响。替换雨图像经过DFT后的幅度成分中的局部补丁,对空间域经过逆DFT后有全局影响。这展示了频域特征处理的全局建模能力。
解决的问题
- 现有方法在全局建模时计算成本高且效率低的问题,通过 FADformer 框架中的 FFCM 在频率域进行高效全局建模来解决。
- 对比样本利用不充分的问题,利用 FCR 在频率域进行对比学习,充分利用负样本信息提升去雨性能。
主要贡献
- 提出一种高效的频率感知 Transformer 架构(FADformer),结合频率域卷积混合器和基于去雨先验的前馈网络,能生成高质量去雨结果,同时保持全局 - 局部特性。
- 引入频率域对比正则化(FCR),显著提升去雨性能并改进负样本信息的利用,且该方法与模型无关,可推广到其他任务。
- 实验表明,该方法在合成和真实数据集上表现优异,在保持高效模型复杂度的同时取得了较好的性能。
主要内容
- 提出 FADformer 框架
- 整体结构:为解决全局建模效率问题,构建了分层的 FADformer 框架,包含一系列不同尺度的 FADBlock,由融合傅里叶卷积混合器(FFCM)和先验门控前馈网络(PGFN)组成。
- FFCM:基于快速傅里叶卷积(FFC),通过空间 - 频率域的卷积操作融合多尺度空间特征,比 Transformer 中的自注意力机制更高效地提取全局信息。
- PGFN:引入残差通道先验(RCP)信息,以门控方式引导前馈网络增强局部细节和结构恢复能力。
- 频率域对比正则化(FCR):为解决对比样本利用不足的问题,提出 FCR,将图像编码到频率域,以地面真值为正样本、雨天图像为负样本、FADformer 输出为锚点,通过计算频率域特征的 L1 距离构建对比学习,有效提升去雨性能。
上图是了FADformer框架,包括Fused Fourier Convolution Mixer(FFCM)、Prior-Gated Feed Forward Network(PGFN)以及Frequency-domain Contrastive Regularization(FCR)三个部分,用于单图像去雨。
具体解决方法
Fused Fourier Convolution Mixer (FFCM):
FFCM是FADformer框架中的关键组件,用于在频域中进行全局特征建模。其核心思想是将空间域的特征通过快速傅里叶变换转换到频域,然后在频域中进行特征融合和处理,最后再通过逆快速傅里叶变换将处理后的特征转换回空间域。FFCM的工作原理如下:
-
空间域操作: 首先,输入特征图 Xt−1f 通过点卷积(point-wise convolution)提升通道维度,并被分割成两组以提取多尺度局部特征,最终获得 Xspatial。
-
频域变换: Xspatial 经过离散傅里叶变换(DFT),转换为实部和虚部分量,
-
分离实部和虚部: 将DFT的结果分解为其实部和虚部,得到两个独立的矩阵,分别表示为RR和II。
-
拼接实部和虚部: 将实部矩阵RR和虚部矩阵II沿着通道维度(channel dimension)拼接起来。这意味着如果RR和II原本是H×WH×W的矩阵,拼接后的矩阵将具有H×W×2H×W×2的形状,其中最后一个维度表示实部和虚部。
-
频域中的卷积操作: 拼接后的实部和虚部分量经过1x1卷积核的卷积操作进行调制。
-
逆变换回空间域: 经过调制的实部和虚部分量被分离,并通过逆离散傅里叶变换(IDFT)转换回空间域,得到 Xfrequency。
-
特征融合: 最后,空间域特征和频域特征通过残差结构和点卷积(PConv)进行融合,得到FFCM的输出 Xt−12。
FFCM利用傅里叶变换的两个主要优势:一是能够分离图像退化成分,雨迹模式在频域中具有显著和不变的特征;二是变换后的频域成分是从所有空间分量计算而来,自然充当全局特征提取器。
PGFN,即Prior-Gated Feed-forward Network(先验门控前馈网络),是FADformer框架中的一个关键组件,旨在利用先验知识来增强局部特征和结构的恢复能力。PGFN通过将任务特定的先验信息整合到标准的前馈网络(FFN)中,以改善网络对局部细节的处理能力。以下是PGFN的工作原理和特点:
-
残差通道先验(Residue Channel Prior, RCP):
- PGFN引入了残差通道先验(RCP)的概念,这是一种从雨图中提取的结构先验信息。
- RCP通过计算雨图的最大和最小通道分量之间的方差来生成一个灰度图,这个灰度图有效地保留了清晰的结构信息,而无需学习参数。
-
门控机制(Gating Mechanism):
- PGFN利用门控机制将RCP信息整合到前馈网络中,以增强网络对结构特征的感知能力。
- 门控机制通过将RCP作为门控特征,指导前馈网络在处理特征时考虑这些先验信息,从而改善局部特征的恢复。
-
前馈网络(Feed-forward Network, FFN):
- PGFN基于标准的前馈网络结构,但在FFN的基础上进行了改进,以整合RCP信息。
- 在PGFN中,FFN首先通过点卷积(PConv)扩展通道维度,然后使用深度可分离卷积(DConv)细化局部特征。
-
并行分支结构(Parallel Branches):
- PGFN包含两个并行分支:主分支和先验分支。
- 主分支负责处理特征图 Xt−1fXt−1f,而先验分支则处理RCP特征图。
- 先验分支通过点卷积和不同核大小的组卷积生成门控权重,这些权重随后用于调制主分支的输出。
-
特征融合(Feature Fusion):
- PGFN通过哈达玛德积(Hadamard product, ⊗)将主分支和先验分支的输出结合起来,实现特征的融合。
- 这种融合允许网络在保持深度特征的同时,也保留了由RCP提供的结构信息。
Frequency-domain Contrastive Regularization (FCR):
FCR是FADformer框架中的另一个关键组件,用于在训练过程中通过对比学习提升去雨性能。FCR的工作原理如下:
-
频域特征提取: 使用傅里叶变换将图像编码到频域,利用频域中雨迹模式的显著特征差异。
-
对比学习: FCR通过测量预测输出与正样本(清晰图像)和负样本(雨图)之间的L1距离,并计算这些距离的比率,来构建对比正则化项。
-
损失函数构建: FCR利用正样本和负样本的频域信息,通过计算锚点(FADformer的输出)与正/负样本之间的L1距离比率,来推动模型学习区分不同雨迹模式的特征。
通过这种方式,FCR能够有效地利用负样本中的雨迹模式信息,增强模型对雨迹的识别和去除能力。傅里叶变换在这里作为一个特征提取器,帮助模型在频域中捕捉到雨迹的显著特征,从而提高去雨任务的性能。
损失函数(Loss Function)
文章中使用了两种主要的损失函数来训练FADformer模型:
-
像素级损失(Pixel-level Loss):
- 这是最常见的损失函数之一,直接比较模型输出和真实图像之间的差异。文章中使用的是L1损失,也就是绝对误差损失(Mean Absolute Error, MAE),它计算模型输出和真实图像之间的平均绝对差值。L1损失鼓励模型输出更接近真实图像,并且在处理异常值时相对鲁棒。
- 公式表示为:
∣,其中 Y 是模型输出,IGT 是真实图像(ground truth),i,j是像素位置。
-
频域对比正则化(Frequency-domain Contrastive Regularization, FCR):
- FCR是文章中提出的一种新的正则化方法,它利用频域特征来增强模型对雨迹的识别和去除能力。FCR通过比较模型输出和正样本(清晰图像)以及负样本(雨图)之间的频域特征差异,来推动模型学习区分不同雨迹模式的特征。
- FCR的公式表示为:
,其中 FF表示傅里叶变换,IGT 是真实图像,Y 是模型输出,Ii 是负样本,n 是负样本的数量。
总损失函数是像素级损失和FCR的加权和:
其中 λ 是用于平衡两个损失项的权重。
实验结果: