[All-in-one] AdaIR:自适应全合一图像恢复通过频率挖掘和调制

AdaIR: Adaptive All-in-One Image Restoration via Frequency Mining and Modulation

https://arxiv.org/pdf/2403.14614

GitHub

Abstract

In the image acquisition process, various forms of degradation, including noise, blur, haze, and rain, are frequently introduced. These degradations typically arise from the inherent limitations of cameras or unfavorable ambient conditions. To recover clean images from their degraded versions, numerous specialized restoration methods have been developed, each targeting a specific type of degradation. Recently, all-in-one algorithms have garnered significant attention by addressing different types of degradations within a single model without requiring the prior information of the input degradation type. However, these methods purely operate in the spatial domain and do not delve into the distinct frequency variations inherent to different degradation types. To address this gap, we propose an adaptive all-in-one image restoration network based on frequency mining and modulation. Our approach is motivated by the observation that different degradation types impact the image content on different frequency subbands, thereby requiring different treatments for each restoration task. Specifically, we first mine low- and high-frequency information from the input features, guided by the adaptively decoupled spectra of the degraded image. The extracted features are then modulated by a bidirectional operator to facilitate interactions between different frequency components. Finally, the modulated features are merged into the original input for a progressively guided restoration. With this approach, the model achieves adaptive reconstruction by accentuating the informative frequency subbands according to different input degradations. Extensive experiments demonstrate that the proposed method, named AdaIR, achieves state-of-the-art performance on different image restoration tasks, including image denoising, dehazing, deraining, motion deblurring, and low-light image enhancement.

在图像采集过程中,经常会引入各种形式的退化,包括噪声、模糊、雾气和雨水等。这些退化通常源于相机的固有局限或不利的环境条件。为了从退化的图像版本中恢复出清晰的图像,已经开发出了许多专门的恢复方法,每种方法都针对特定类型的退化。最近,一体化算法因其能够在单个模型中处理不同类型的退化而无需输入退化类型的先验信息,从而受到了广泛关注。然而,这些方法纯粹在空间域中操作,并未深入研究不同退化类型所固有的不同频率变化。

为了填补这一空白,提出了一种基于频率挖掘和调制的自适应一体化图像恢复网络。该方法受到以下观察的启发:不同类型的退化对图像内容在不同频率子带上的影响不同,因此每个恢复任务都需要不同的处理方法。

具体来说,首先根据退化图像的自适应解耦频谱,从输入特征中挖掘低频和高频信息。

然后,通过双向算子对提取的特征进行调制,以促进不同频率分量之间的相互作用。

最后,将调制后的特征合并回原始输入,以实现逐步引导的恢复。

通过这种方法,模型能够根据不同的输入退化,通过强调信息丰富的频率子带来实现自适应重建。

广泛的实验表明,提出的方法(命名为AdaIR)在包括图像去噪、去雾、去雨、运动去模糊和低光图像增强在内的不同图像恢复任务上达到了最先进的性能。

Introduction

图像复原是指通过去除原始输入图像中的退化因素(如噪声、雾、模糊、雨痕等)来生成高质量清晰图像的任务。它在多个领域的下游应用中扮演着至关重要的角色,包括图像/视频内容创作、监控、医学成像和遥感等。由于其固有的不适定性质,有效的图像复原需要从大规模数据中学习强大的图像先验知识。为此,基于深度神经网络的图像复原方法已成为比传统手工设计算法更受欢迎的选择。深度学习方法要么从数据中隐式地学习图像先验,要么通过将特定任务的知识融入网络架构中来显式地学习。尽管这些方法在单个复原任务上取得了令人鼓舞的结果,但它们要么不能泛化到特定退化类型和程度之外,从而阻碍了其更广泛的应用;要么需要在不同类型的退化上分别训练同一网络的副本,这既计算昂贵又繁琐,对于资源受限的边缘设备的部署来说可能不是一个可行的解决方案。因此,需要开发一种能够处理具有不同退化类型图像的“一体化”图像复原方法,而无需事先了解输入图像中存在的损坏情况。

近年来,越来越多的尝试旨在通过单个模型解决多种退化问题。这些方法包括在通过对比学习范式学习的复原网络中采用退化感知编码器;设计一个两阶段框架IDR,其中第一阶段基于退化类型的物理特性进行面向任务的知识收集,第二阶段则负责面向成分的知识集成,逐步恢复图像;或开发受自然语言处理领域成功启发的即时学习策略。然而,所有这些方法都纯粹在空间域中操作,没有考虑频域信息。但如图1所示,作者观察到不同类型的退化可能会对图像内容在不同频率子带上产生不同的影响。例如,一方面,噪声和雨痕图像被高频内容污染,而另一方面,低光和雾图像则主要由低频退化内容主导,这表明需要根据每种复原任务自身的特点来进行处理。

在本文中,本文提出了一种基于频率挖掘和调制的自适应“一体化”图像复原框架。具体来说,频率挖掘模块在退化输入图像的自适应频谱分解的指导下,从输入特征中提取不同的频率信号。然后,使用双向模块对这些提取的特征进行细化,该模块通过交换互补信息来促进不同频率组件之间的交互。最后,这些调制后的特征通过高效的转置交叉注意机制来转换原始输入特征。通过提出的关键设计选择,本文的方法能够比其他竞争方法更有效地学习判别性退化上下文,如图2所示。

贡献

——提出了一种自适应的“一体化”图像复原框架,该框架利用空间和频域信息来有效地将退化因素与所需的清晰图像内容解耦。

——引入了自适应频率学习块(AFLB),这是一个插件块,专为轻松集成到现有图像复原架构中而设计。AFLB执行两个连续的任务:首先,通过其频率挖掘模块(FMiM),它根据原始退化图像的频谱分解得到的指导,生成低频和高频特征图;其次,AFLB内的频率调制模块(FMoM)通过在不同频率带之间交换信息来校准这些特征,以有效处理多种类型的图像退化。

——广泛的实验表明,AdaIR算法在包括图像去噪、去雾、去雨、运动去模糊和低光图像增强在内的多个“一体化”图像复原任务上达到了最新的性能水平。

Method

Overall pipline

图3展示了AdaIR的流程。AdaIR框架的总体目标是学习一个统一的模型M,该模型能够从给定的退化图像I^中恢复出清晰的图像I,而无需输入图像I中存在的退化类型D的任何先验信息。

给定一个退化图像I ∈ R^(H×W×3),AdaIR首先使用3×3卷积层提取浅层特征Y0 ∈ R^(H×W×C);其中H×W表示空间尺寸,C表示通道数。

这些特征Y0通过一个四级编码器-解码器网络进行处理。编码器的每一级都采用多个Transformer块(TBs),其中块的数量从顶层到底层逐渐增加,从而实现了计算高效的设计。编码器以高分辨率特征Y0作为输入,并逐步将它们转换为低分辨率的潜在表示Yl ∈ R^(H/8×W/8×8C)。

在解码器端,潜在特征Yl通过交错的自适应频率学习块(AFLB)和TBs进行处理,以逐步重建高分辨率的清晰输出。特别是,在解码器的每两级之间,插入了AFLB,它能够在频域中自适应地将退化内容与清晰图像内容分离,并随后在空间域中细化特征,以实现有效的图像恢复。

由于不同类型的退化会以不同的频带影响图像内容(如图1所示),本文特别设计了自适应频率学习块(AFLB),该块从输入特征中提取低频和高频分量,并对它们进行调制,以突出每种退化对应的信息子带。

Frequency Mining Module (FMiM)

如图3(b)所示,给定退化图像I和中间特征X∈R^(H×W×C),FMiM(Frequency Mining Module)在I的自适应解耦频谱的指导下,从X中挖掘不同的频率表示。FMiM主要由三个步骤组成:域变换、掩码生成和特征提取。

域变换:FMiM首先对退化图像I应用一个3×3的卷积层,以扩展其通道容量,使其与输入特征X的通道数对齐。然后,通过快速傅里叶变换(FFT)将这些输出特征转换为频域表示F∈R^(H×W×C)。

掩码生成:为了从输入特征X中自适应地提取不同的频率部分,我们设计了一个轻量级的掩码生成块(MGB)来生成一个二维掩码,该掩码作为频率边界来分离输入图像I的频谱。截止频率边界根据图像中存在的退化类型自适应地变化。如图3(e)所示,首先通过全局平均池化(GAP)操作将投影的特征图P映射成向量,然后通过两个带有GELU激活函数的1×1卷积层,产生两个介于0到1之间的因子,这两个因子通过乘以频谱的宽度和高度来定义掩码的大小。掩码生成过程可以正式表示为:

其中,GAPs​表示空间全局平均池化,σ表示GELU激活函数,δ表示sigmoid函数。卷积权重W1​和W2​的降维比率分别为r1​和​C/2r1​,逐步将通道维度下采样到2。随后,可以通过将学到的掩码应用于频谱,并通过逐元素乘法和使用逆傅里叶变换来获得自适应解耦的特征。低频掩码可以通过将Ml[H_{2-\alpha H_k}:H_{2+\alpha H_k}, W_{2-\beta W_k}:W_{2+\beta W_k}]设置为1获得,其中k设置为一个较小的值(如128),因为图1中的曲线接合部相对较小。相应地,高频掩码Mh​可以通过将剩余区域的值设置为1来获得。

特征提取:接下来,采用多头转置交叉注意力(图3(d))[7, 70]的变体来在Fl​和Fh​的指导下从输入特征X中挖掘不同的特征部分。特征提取过程定义为:

其中,

这里,∗∈{l,h}是低频/高频的指示符,DW表示3×3的深度卷积,⊙表示逐元素乘法,F−1表示逆快速傅里叶变换,Q、K和V分别是查询、键和值投影,它们分别是通过对输入应用1×1卷积和深度卷积后得到的。

Frequency Modulation Module (FMoM)

我们设计了FMoM(Frequency Modulation Module,频率调制模块)以促进低频挖掘特征和高频挖掘特征之间的交叉交互,如图3(c)所示。其目标是使一种挖掘特征与另一种特征相互补充。例如,高频特征包含边缘和精细的纹理细节,因此我们使用这些信息通过一个超轻量级的空间注意力单元(H-L,如图3(f)所示)来丰富低频挖掘特征。类似地,低频特征中存在的全局信息通过通道注意力单元(L-H,如图3(g)所示)传递给高频分支。

H-L单元:此单元从高频挖掘特征中计算空间注意力图,然后使用该注意力图来补充低频分支的特征。H-L单元并行利用两种不同的通道池化技术来生成两个单通道的空间特征图,每个特征图的大小为H × W × 1。然后,这些特征图在通道维度上进行拼接。拼接后的特征进一步通过7 × 7的卷积进行细化,随后通过sigmoid操作生成最终的空间注意力图。该注意力图随后通过逐元素乘法用于获得调制后的低频特征。总体而言,H-L单元的处理过程可以表示为:

其中W6具有一个通道缩减比率为2的设定。δ表示sigmoid函数。GAPc和GMPc分别代表通道级全局平均池化和最大池化。[·, ·]表示拼接操作。

L-H单元:这是一个双分支模块,用于处理传入的低频挖掘特征,生成一个特征描述符,该描述符随后用于关注高频挖掘特征。具体来说,给定挖掘出的低频特征Xl​∈RH×W×C,L-H单元的顶部分支沿着空间维度应用全局平均池化以获得大小为1 × 1 × C的特征向量,随后是两个卷积层,并在其间使用ReLU激活函数。L-H单元的底部分支采用相同结构,唯一的区别在于头部使用最大池化。两个分支的结果相加后,应用sigmoid函数生成最终的注意力描述符AL−H​∈R1×1×C,该描述符用于调制挖掘出的高频特征Xh​。L-H单元的处理过程可以表示为:

其中,δ是sigmoid函数,X^h​是调制后的高频特征,GAPs​和GMPs​分别表示沿空间维度的全局平均池化和最大池化,γ表示ReLU激活函数。W7​和W9​具有用于通道调整的缩减比率r2​,而W8​和W10​具有增加比率r2​。为了提高计算效率,W7​和W9​、W8​和W10​之间的参数是共享的。

随后,调制后的高频特征X^h​和低频特征X^l​被聚合并通过1 × 1卷积处理以获得Xm​,该特征通过跨注意力单元与原始输入特征X合并,其中查询Q张量由X生成,而Xm​产生键K和值V张量。通过使用FMiM(可能是指某个特定的特征调制模块,但在此上下文中未明确说明)和FMoM,输入特征的高频和低频内容根据受损输入图像中存在的退化类型分别且自适应地进行调制,从而实现自适应的一站式图像恢复。

Result

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值