CVPR 2024 | CRNet：一种可保留细节的图像增强与统一恢复网络_crnet: a detail-preserving network for unified ima-CSDN博客

本文章仅用于学术分享

论文标题丨 CRNet: A Detail-Preserving Network for Unified Image Restoration and Enhancement Task

论文地址丨 https://arxiv.org/abs/2404.14132

代码地址 | https://github.com/CalvinYang0/CRNet

作者丨破格

编辑丨AI前沿速递

更多内容，关注公众号：AI前沿速递

上图为文章网络的图像增强效果

研究背景

这篇文章的研究背景聚焦于图像恢复与增强领域，旨在解决现实世界摄影中遇到的一系列挑战。在日常生活中，我们所拍摄的图片常常会因为各种因素，如光线不足、相机抖动、曝光时间不当等，导致图像出现模糊、噪声以及动态范围受限等问题。这些问题严重影响了图像的视觉质量和后续的应用效果。为了提升图像质量，使之更接近人眼所见或满足特定的视觉需求，研究者们开发了多种图像处理技术，包括去噪、去模糊以及高动态范围成像（HDR）等。

传统的图像处理方法往往针对特定的退化问题设计，例如单独的去噪或去模糊技术。然而，这些独立的方法在处理复杂场景时往往力不从心，因为它们很难同时考虑到图像中的多种退化因素。此外，由于单次拍摄的图像信息有限，导致这些方法在恢复细节和增强图像时存在一定的局限性。

随着技术的发展，多曝光图像恢复与增强技术应运而生。通过利用一系列不同曝光设置下拍摄的图像，这种方法能够更好地捕捉场景中的动态范围和细节信息。但是，多曝光图像处理也面临着其自身的挑战，如图像对齐、鬼影效应（ghosting effects）以及如何有效融合不同曝光级别的图像等。

深度学习技术的引入为图像恢复与增强带来了革命性的进展。基于深度神经网络的方法能够自动学习复杂的图像退化模型，并在多任务学习框架下同时进行去噪、去模糊和HDR成像等操作。然而，现有的深度学习方法在处理多曝光图像时，仍然存在一些不足，比如网络结构设计上的局限性、对高频细节恢复不足、以及计算资源的高消耗等问题。

针对这些挑战，文章提出了一种新的复合细化网络（Composite Refinement Network，简称CRNet），旨在通过统一的框架同时处理图像恢复和增强任务。CRNet通过整合多曝光图像中的丰富信息，显式分离并加强图像的高频和低频信息，并通过特别设计的多分支块（Multi-Branch Blocks）有效融合这些频率信息。此外，CRNet采用了高频增强模块，包括大核心卷积和倒置瓶颈ConvFFN，以增加感受野并充分整合输入特征。这些创新的设计使得CRNet在视觉质量和评估指标上都超越了以往的最先进模型，并且在计算成本上远低于其他模型，为图像恢复与增强领域带来了新的可能性。

相关工作

过去，在图像恢复与增强领域，研究者们已经开展了大量的工作，探索了多种技术和方法来改善图像质量。这些研究主要集中在三个核心任务上：去噪、去模糊和高动态范围（HDR）成像。

去噪技术旨在减少图像捕获过程中引入的随机噪声。早期的方法依赖于空间滤波器，如均值滤波或中值滤波，但这些方法往往会牺牲图像细节。随着时间的推移，基于模型的方法，如基于小波变换的方法，因其能够更好地保留图像细节而变得流行。近年来，深度学习技术，特别是卷积神经网络（CNN），已被证明在去噪方面非常有效，能够学习复杂的噪声模式并有效去除噪声。

去模糊技术处理的是因相机抖动或快速移动的对象导致的图像模糊。传统的去模糊方法包括逆滤波和维纳滤波，但这些方法在处理严重模糊的图像时效果有限。深度学习为去模糊任务带来了新的解决方案，其中多尺度网络和循环网络被用来逐步恢复图像的清晰度。

HDR成像技术旨在从一系列不同曝光的低动态范围（LDR）图像中恢复出具有更宽动态范围的HDR图像。这个过程需要解决图像对齐问题，以避免鬼影效应，并有效地合并不同曝光级别的图像。传统方法通常依赖于图像金字塔和图像配准技术。深度学习方法，尤其是基于CNN的方法，通过学习从LDR到HDR的复杂映射，显著提高了HDR成像的质量。

尽管这些方法在各自领域取得了进展，但它们通常只关注单一的退化问题，并且在处理多曝光图像时可能会忽略边缘和纹理细节，导致高频细节的增强不足。此外，随着网络深度的增加和输入图像数量的增加，现有方法可能会导致网络逐渐忘记之前添加的帧，从而影响最终的图像质量。

为了克服这些限制，研究人员开始探索多曝光图像恢复和增强的新方法。例如，一些研究利用双曝光图像进行图像恢复，而其他研究则采用多曝光图像生成HDR图像以增强图像。最近，TMRNet提供了一种可行的解决方案，它采用多曝光图像作为输入，并逐步将非参考帧与参考帧整合。然而，这种方法在处理具有复杂动态场景的图像时仍然存在挑战。

综上所述，尽管过去在图像恢复与增强领域取得了显著的进展，但仍存在进一步提升图像质量、增强高频细节以及提高计算效率的空间。这些挑战激发了对新型网络架构和算法的研究，以实现更高质量的图像恢复和增强。

方法

上图提供了CRNet模型的概览，揭示了其主要包含三个组成部分：对齐、高频增强和输出融合。在高频增强模块中，模型首先利用两个不同的池化层快速分离高频和低频特征，随后通过精心设计的多分支块（Multi-Branch Block）对它们进行融合。之后，模型采用纯卷积增强块（Convolutional Enhancement Block），主要由大核心卷积组成，以增加模型的感受野，并通过具有倒置瓶颈结构的ConvFFN来全面融合特征，从而有效增强图像。

文章提出的方法是针对动态场景中捕获的一系列具有不同曝光水平的原始图像（Raw images）。这些图像的目的是同时进行去噪、去模糊和HDR重建，以生成与参考图像（Rr）非常接近的结果图像。具体来说，选择了五个按曝光从低到高排列的原始图像（R1, R2, R3, R4, R5）作为输入，其中R1作为参考图像。然后，将每个原始图像Ri归一化到Ri∆ti/∆t1，并应用伽马映射转换以获得LDR图像{L1, L2, L3, L4, L5}。这些图像随后与相应的原始图像Ri结合，形成输入{I1, I2, I3, I4, I5}。

CRNet模型的输入是这五个归一化并结合后的图像{I1, I2, I3, I4, I5}。模型的目标是产生一个无噪声和无模糊的HDR图像，记为ˆH。CRNet首先使用光流对齐块（Optical Flow Alignment Block）对五个输入图像进行对齐，得到{f1, f2, f3, f4, f5}。对齐过程包括用于浅层特征提取的卷积块和预训练的Spynet。

对齐后的图像然后被合并作为后续处理的输入，这样做可以更全面地利用每张图像中的信息。合并后的特征接着通过三个高频增强模块（High-Frequency Enhancement Modules），每个模块都利用不同的池化层来分离和增强高频和低频信息，然后是N个卷积增强块（Convolutional Enhancement Blocks）。这些模块通过大核心深度可分离卷积和具有倒置瓶颈结构的卷积化FFN来增加模型的感受野，并全面融合特征，同时进一步增强高频信息。最终，三个高频增强子网络的结果与使用简单卷积块对齐的参考帧融合，以输出最终结果。

1、CRNet概览

CRNet的核心在于其对五个输入图像{I1, I2, I3, I4, I5}的处理流程。首先，这些图像通过光流对齐块进行对齐，这一步骤利用了卷积块和预训练的Spynet来确保图像特征的准确提取和对齐。对齐后的图像被合并，形成单一的输入流，以便于后续网络部分的全面处理。

合并后的图像特征随后被送入三个高频增强模块。这些模块的设计目的是快速分离图像的高频和低频信息，并通过特别设计的多分支块进行融合。高频信息的增强是通过Transformer机制实现的，而多分支块则负责将不同频率的信息进行有效融合，从而恢复图像的细节。

此外，CRNet采用了纯卷积增强块，这是一个主要由大核心卷积组成的模块，它通过增加模型的感受野来提取和融合特征，同时增强高频信息。这个模块通过使用深度可分离卷积和具有倒置瓶颈结构的卷积化FFN，进一步提升了特征融合的能力。

最终，高频增强子网络的输出与经过简单卷积块对齐的参考帧进行融合，以生成最终的HDR图像。CRNet的这种设计不仅在视觉上取得了突破，而且在多种评估指标上达到了之前的最佳性能。通过这种方式，CRNet能够以较低的计算成本实现高质量的图像恢复和增强，这一点在与现有最先进模型的比较中得到了验证。

2、频域的分离与融合

在CRNet中，"Frequence Separation and Fusion"（频率分离与融合）是一个关键环节，旨在提升图像恢复和增强任务中的高频特征信息。为了有效地增强图像的高频细节，CRNet采用了一种简单且计算效率高的方法来分离高频和低频特征。具体来说，CRNet利用池化层代替传统的傅里叶变换等复杂技术，通过平均池化和最大池化来下采样输入特征图，从而获得低频特征。然后，通过双线性插值将低频特征上采样回原始尺寸，并通过原特征图减去上采样后的低频特征来计算出高频特征。

获取到明确的高频特征后，CRNet使用自注意力机制（Self-Attention）来全局增强这些高频信息。为了避免通过基本卷积块简单地跨频率域融合特征导致信息丢失和融合不足，CRNet采用了多分支块（Multi-Branch Block）来充分融合高频和低频信息。多分支块由两个并行的卷积路径组成，每个路径使用不同数量的卷积核，一个专注于图像的高频细节，另一个关注低频内容和轮廓。

最终，通过多分支块独立处理高频和低频特征后，将低频信息上采样以匹配高频特征的尺寸，然后将它们连接起来，并通过通道注意力和简单卷积进行融合。这一过程有效地整合了高频细节和低频信息，为图像恢复和增强任务提供了高质量的结果。

上图展示了作者所谓的“通过一个简单的polling层分离高频和低频”。

具体来说，在CRNet中，频率分离与融合（Frequence Separation and Fusion）是提升图像细节质量的重要步骤。这一过程的核心在于通过分离图像的高频（FH）和低频（FL）特征来独立地增强它们，进而恢复图像的细节。

首先，CRNet使用池化层来下采样输入特征图F，得到低频特征FL。这个过程可以通过公式𝐹L=𝑄𝑝𝑝𝑚𝑖𝑜𝑔(𝐹)来表示，其中Pooling指的是使用池化层进行下采样操作。接着，通过双线性插值（Upsample）将低频特征上采样回原始尺寸，得到Fup 。高频特征FH随后通过从原始特征F中减去上采样后的低频特征FL来计算，即𝐹𝐻=𝐹−𝑈𝑞𝑡𝑎𝑛𝑞𝑚𝑒(𝐹L)。

为了增强这些高频特征，CRNet采用Transformer中的Self-Attention机制来处理FH，得到增强后的高频特征𝐹𝐻1。随后，CRNet利用多分支块（Multi-Branch Block，MBB）来融合高频和低频特征。多分支块由两个并行的卷积路径组成，第一个分支专注于高频细节，而第二个分支关注低频内容和轮廓。通过这种方式，CRNet可以有效地融合不同频率的特征，公式可以表示为𝐻=MBB(𝐹𝐻1)和L=MBB(MBB(MBB(𝐹L)))。

最终，通过将上采样的低频信息与高频特征在通道维度上进行连接，并经过1x1卷积和通道注意力（CA）以及3x3卷积进行融合，得到最终的输出。这个过程可以用以下公式描述：

Out=Conv1×1(CA(Conv3×3(Concatenate(𝑈p(L),𝐻))))，其中Concatenate表示在通道维度上的连接操作，Conv1x1和Conv3x3分别表示1x1和3x3的卷积操作。

通过这样的频率分离与融合策略，CRNet能够显著提高图像恢复和增强任务中高频细节的质量和丰富度，从而产生更加清晰和真实的图像输出。

上图展示了作者的非对称并行卷积结构，用来高效整合高频和低频信息。

3、卷积增强

文章设计了一种创新的卷积增强模块（Convolutional Enhancement Block），旨在通过扩大感受野和深入融合特征来提升图像质量。

a、卷积增强模块的设计目标

• 扩大感受野：通过使用大核心卷积，我们希望网络能够捕捉到图像中更宽广的上下文信息，这对于图像恢复和增强至关重要。

• 深入特征融合：利用具有倒置瓶颈结构的ConvFFN，我们增强了网络对特征的融合能力，这有助于提升图像的细节恢复效果。

b、卷积增强模块的关键技术

• 深度可分离卷积（Depthwise Separable Convolution）：这是一种计算效率更高的卷积方法，它分开处理空间卷积和深度卷积，从而减少计算量。

• 倒置瓶颈结构（Inverted Bottleneck Structure）：这种结构允许网络在保持特征维度的同时，增加网络的非线性表达能力。

c、卷积增强模块的工作流程

输入特征F1首先通过1x1的卷积层，然后是深度可分离的7x7卷积层，再次通过1x1卷积层，最后通过GELU激活函数进行非线性激活。整个过程可以用以下公式表示：

其中，Conv1x1表示1x1的卷积操作，DConv7x7表示深度可分离的7x7卷积操作。

d、卷积增强模块的优势

• 高通滤波器效果：通过这种设计，我们的模块能够作为一个高通滤波器，有效地从多个输入帧中融合内容，同时增强高频信息。

• 计算效率：通过使用深度可分离卷积，我们在保持性能的同时减少了模型的计算量，这对于实际应用中的部署和使用至关重要。

通过这种创新的卷积增强模块，CRNet能够在图像恢复和增强任务中实现更高质量的输出，同时保持较低的计算成本。

实验

文章的实验部分详细描述了CRNet在图像恢复和增强任务上的性能评估。作者使用了Bracketing Image Restoration挑战的Track 1训练集，该数据集基于HDR视频构建，模拟了多曝光图像的运动和模糊效果。实验中，CRNet与当前最先进的几种深度学习模型进行了定量和定性比较，包括AHDRNet、TMRNet、Transformer-based CA-ViT、SCTNet、Kim's和HyHDR等。CRNet在视觉上和多种评估指标上均优于比较模型，包括在PSNR-µ和SSIM-µ等指标上取得更高的分数，证明了其在图像质量提升方面的有效性。

此外，CRNet在计算成本方面也展现出优势，包括在FLOPs、推理时间和GPU内存使用上均低于其他模型。为了进一步验证CRNet中各个组件的有效性，作者还进行了一系列的消融实验，结果表明CRNet中的关键组件，如频率分离、多分支块和卷积增强块，对于提升最终的图像恢复和增强效果至关重要。最终，CRNet在Bracketing Image Restoration和Enhancement Challenge的Track 1中获得了第三名，证明了其在实际应用中的潜力和效果。

在Bracketing Image Restoration and Enhancement Challenge上的测试结果

在该数据集上的一些例子

track1上的测试结果，同样是Bracketing Image Restoration and Enhancement Challenge

对于各个模块的消融实验

多支路模块的消融实验

上图可现实出作者的模型能够清楚地显示出图像的边缘信息

总结

这篇文章的创新点主要体现在提出了复合细化网络（CRNet），它通过显式分离和加强图像的高频与低频信息，使用多分支块（Multi-Branch Block）进行有效融合，以及采用大核心卷积和具有倒置瓶颈结构的卷积化前馈网络（ConvFFN）来增加模型的感受野和特征融合能力。CRNet在统一图像恢复和增强任务中取得了突破性进展，在视觉质量和多个评估指标上超越了先前的最佳模型，同时在计算成本上显著低于其他模型，展现了其在图像恢复和增强领域的高效性和优越性能。