【ECCV 2024】傅里叶卷积混合器

论文题目Efficient Frequency-Domain Image Deraining with Contrastive Regularization

论文链接:https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/05751.pdf

官方github:https://github.com/deng-ai-lab/FADformer

所属机构:北京航空航天大学航天学院

文章讨论的是单图像去雨(Single Image Deraining, SID)问题,这是一个低级图像恢复任务,目的是从雨图中恢复出干净的背景图像。

文章提出了一个名为FADformer(Frequency-Aware Deraining Transformer Framework)的新框架,它通过在频域中捕捉特征来高效去除雨水。文章指出,现有的基于Transformer的方法在全局建模方面效率不高,并且在训练中要么忽视了负样本信息,要么没有充分利用负样本中的雨迹模式。

算法性能比较:

研究背景

  1. 单图像去雨的重要性与挑战:单图像去雨是低级图像恢复中的关键任务,由于真实背景和雨分布未知,是一个具有挑战性的不适定逆问题,且雨天图像会影响下游视觉任务性能,因此该任务一直是研究热点。
  2. 传统方法的局限性:早期基于传统先验的方法通过分析统计特征去除雨渍,但在处理密集、复杂和多样的雨痕模式时往往失败。
  3. 基于学习方法的发展与问题:基于学习的方法(如 CNN 和 Transformer 架构)在图像去雨方面取得了进展,但当前主流的监督学习范式仍面临两个主要挑战:一是缺乏高效的全局建模机制,全局建模能力通常通过空间域操作实现,计算成本高且性能提升不匹配;二是对比样本利用不足,多数方法在学习过程中未充分利用负样本信息。
  4. 大多数当前的单图像去雨(SID)方法都是基于Transformer,通过全局建模实现高质量的重建。然而,它们的架构仅从空间域构建长距离特征,这在保持有效性的同时带来了显著的计算负担。

上图展示了频域对于图像去雨任务的动机和优势。它包含两个主要部分: (a) 展示了不同雨迹模式在频域中的差异性。通过独立修改雨图中的背景内容和前景雨迹,观察到具有相同雨迹但不同内容的图像在频域中相对相似,而具有不同雨迹但相同内容的图像在频域中表现出显著差异。这突出了离散傅里叶变换(DFT)对雨迹退化模式的敏感性。 (b) 展示了在频域中修复局部特征对空间域的全局影响。替换雨图像经过DFT后的幅度成分中的局部补丁,对空间域经过逆DFT后有全局影响。这展示了频域特征处理的全局建模能力。

解决的问题

  1. 现有方法在全局建模时计算成本高且效率低的问题,通过 FADformer 框架中的 FFCM 在频率域进行高效全局建模来解决。
  2. 对比样本利用不充分的问题,利用 FCR 在频率域进行对比学习,充分利用负样本信息提升去雨性能。

主要贡献

  1. 提出一种高效的频率感知 Transformer 架构(FADformer),结合频率域卷积混合器和基于去雨先验的前馈网络,能生成高质量去雨结果,同时保持全局 - 局部特性。
  2. 引入频率域对比正则化(FCR),显著提升去雨性能并改进负样本信息的利用,且该方法与模型无关,可推广到其他任务。
  3. 实验表明,该方法在合成和真实数据集上表现优异,在保持高效模型复杂度的同时取得了较好的性能。

主要内容

  1. 提出 FADformer 框架
    • 整体结构:为解决全局建模效率问题,构建了分层的 FADformer 框架,包含一系列不同尺度的 FADBlock,由融合傅里叶卷积混合器(FFCM)和先验门控前馈网络(PGFN)组成。
    • FFCM:基于快速傅里叶卷积(FFC),通过空间 - 频率域的卷积操作融合多尺度空间特征,比 Transformer 中的自注意力机制更高效地提取全局信息。
    • PGFN:引入残差通道先验(RCP)信息,以门控方式引导前馈网络增强局部细节和结构恢复能力。
  2. 频率域对比正则化(FCR):为解决对比样本利用不足的问题,提出 FCR,将图像编码到频率域,以地面真值为正样本、雨天图像为负样本、FADformer 输出为锚点,通过计算频率域特征的 L1 距离构建对比学习,有效提升去雨性能。


上图是了FADformer框架,包括Fused Fourier Convolution Mixer(FFCM)、Prior-Gated Feed Forward Network(PGFN)以及Frequency-domain Contrastive Regularization(FCR)三个部分,用于单图像去雨。

具体解决方法

Fused Fourier Convolution Mixer (FFCM):

FFCM是FADformer框架中的关键组件,用于在频域中进行全局特征建模。其核心思想是将空间域的特征通过快速傅里叶变换转换到频域,然后在频域中进行特征融合和处理,最后再通过逆快速傅里叶变换将处理后的特征转换回空间域。FFCM的工作原理如下:

  1. 空间域操作: 首先,输入特征图 Xt−1f 通过点卷积(point-wise convolution)提升通道维度,并被分割成两组以提取多尺度局部特征,最终获得 Xspatial。

  2. 频域变换: Xspatial 经过离散傅里叶变换(DFT),转换为实部和虚部分量,

  3. 分离实部和虚部: 将DFT的结果分解为其实部和虚部,得到两个独立的矩阵,分别表示为RR和II。

  4. 拼接实部和虚部: 将实部矩阵RR和虚部矩阵II沿着通道维度(channel dimension)拼接起来。这意味着如果RR和II原本是H×WH×W的矩阵,拼接后的矩阵将具有H×W×2H×W×2的形状,其中最后一个维度表示实部和虚部。

  5. 频域中的卷积操作: 拼接后的实部和虚部分量经过1x1卷积核的卷积操作进行调制。

  6. 逆变换回空间域: 经过调制的实部和虚部分量被分离,并通过逆离散傅里叶变换(IDFT)转换回空间域,得到 Xfrequency​。

  7. 特征融合: 最后,空间域特征和频域特征通过残差结构和点卷积(PConv)进行融合,得到FFCM的输出 Xt−12​。

FFCM利用傅里叶变换的两个主要优势:一是能够分离图像退化成分,雨迹模式在频域中具有显著和不变的特征;二是变换后的频域成分是从所有空间分量计算而来,自然充当全局特征提取器。

PGFN,即Prior-Gated Feed-forward Network(先验门控前馈网络),是FADformer框架中的一个关键组件,旨在利用先验知识来增强局部特征和结构的恢复能力。PGFN通过将任务特定的先验信息整合到标准的前馈网络(FFN)中,以改善网络对局部细节的处理能力。以下是PGFN的工作原理和特点:

  1. 残差通道先验(Residue Channel Prior, RCP):

    • PGFN引入了残差通道先验(RCP)的概念,这是一种从雨图中提取的结构先验信息。
    • RCP通过计算雨图的最大和最小通道分量之间的方差来生成一个灰度图,这个灰度图有效地保留了清晰的结构信息,而无需学习参数。
  2. 门控机制(Gating Mechanism):

    • PGFN利用门控机制将RCP信息整合到前馈网络中,以增强网络对结构特征的感知能力。
    • 门控机制通过将RCP作为门控特征,指导前馈网络在处理特征时考虑这些先验信息,从而改善局部特征的恢复。
  3. 前馈网络(Feed-forward Network, FFN):

    • PGFN基于标准的前馈网络结构,但在FFN的基础上进行了改进,以整合RCP信息。
    • 在PGFN中,FFN首先通过点卷积(PConv)扩展通道维度,然后使用深度可分离卷积(DConv)细化局部特征。
  4. 并行分支结构(Parallel Branches):

    • PGFN包含两个并行分支:主分支和先验分支。
    • 主分支负责处理特征图 Xt−1fXt−1f​,而先验分支则处理RCP特征图。
    • 先验分支通过点卷积和不同核大小的组卷积生成门控权重,这些权重随后用于调制主分支的输出。
  5. 特征融合(Feature Fusion):

    • PGFN通过哈达玛德积(Hadamard product, ⊗)将主分支和先验分支的输出结合起来,实现特征的融合。
    • 这种融合允许网络在保持深度特征的同时,也保留了由RCP提供的结构信息。

Frequency-domain Contrastive Regularization (FCR):

FCR是FADformer框架中的另一个关键组件,用于在训练过程中通过对比学习提升去雨性能。FCR的工作原理如下:

  1. 频域特征提取: 使用傅里叶变换将图像编码到频域,利用频域中雨迹模式的显著特征差异。

  2. 对比学习: FCR通过测量预测输出与正样本(清晰图像)和负样本(雨图)之间的L1距离,并计算这些距离的比率,来构建对比正则化项。

  3. 损失函数构建: FCR利用正样本和负样本的频域信息,通过计算锚点(FADformer的输出)与正/负样本之间的L1距离比率,来推动模型学习区分不同雨迹模式的特征。

通过这种方式,FCR能够有效地利用负样本中的雨迹模式信息,增强模型对雨迹的识别和去除能力。傅里叶变换在这里作为一个特征提取器,帮助模型在频域中捕捉到雨迹的显著特征,从而提高去雨任务的性能。

损失函数(Loss Function)

文章中使用了两种主要的损失函数来训练FADformer模型:

  1. 像素级损失(Pixel-level Loss):

    • 这是最常见的损失函数之一,直接比较模型输出和真实图像之间的差异。文章中使用的是L1损失,也就是绝对误差损失(Mean Absolute Error, MAE),它计算模型输出和真实图像之间的平均绝对差值。L1损失鼓励模型输出更接近真实图像,并且在处理异常值时相对鲁棒。
    • 公式表示为:
      ∣,其中 Y 是模型输出,IGT 是真实图像(ground truth),i,j是像素位置。
  2. 频域对比正则化(Frequency-domain Contrastive Regularization, FCR):

    • FCR是文章中提出的一种新的正则化方法,它利用频域特征来增强模型对雨迹的识别和去除能力。FCR通过比较模型输出和正样本(清晰图像)以及负样本(雨图)之间的频域特征差异,来推动模型学习区分不同雨迹模式的特征。
    • FCR的公式表示为:
      ​​,其中 FF表示傅里叶变换,IGT 是真实图像,Y 是模型输出,Ii 是负样本,n 是负样本的数量。

总损失函数是像素级损失和FCR的加权和:

 其中 λ 是用于平衡两个损失项的权重。

实验结果:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值