【图像去噪】论文精读:Learning Deep CNN Denoiser Prior for Image Restoration(IRCNN)

请先看【专栏介绍文章】:【图像去噪(Image Denoising)】关于【图像去噪】专栏的相关说明,包含适配人群、专栏简介、专栏亮点、阅读方法、定价理由、品质承诺、关于更新、去噪概述、文章目录、资料汇总、问题汇总(更新中)


前言

论文题目:Learning Deep CNN Denoiser Prior for Image Restoration —— 学习深度CNN降噪先验用于图像重建

论文地址:Learning Deep CNN Denoiser Prior for Image Restoration

论文源码:https://github.com/cszn/ircnn

CVPR 2017!

Abstract

基于模型的优化方法和判别学习方法是解决低级视觉中各种逆问题的两个主要策略。通常,这两种方法各有优缺点,例如基于模型的优化方法可以灵活地处理不同的逆问题,但通常需要复杂的先验才能获得良好的性能;同时,判别学习方法测试速度快,但其应用范围受到专业任务的限制很大。最近的研究表明,在可变分裂技术的帮助下,去噪先验可以作为基于模型的优化方法的模块化部分插入,以解决其他逆问题(如去模糊)。当通过判别学习获得降噪器时,这种集成会产生相当大的优势。然而,仍然缺乏与快速判别降噪器先验的集成研究。为此,本文旨在训练一组快速有效的CNN(卷积神经网络)去噪器,并将其集成到基于模型的优化方法中,以解决其他逆问题。实验结果表明,学习到的去噪器集不仅获得了令人满意的高斯去噪结果,而且可以用作在各种低级视觉应用中提供良好性能的先验。

摘要总览:解决模型方法获取先验速度慢的问题,本文的去噪器可以集成到模型中,解决各种逆问题。

1. Introduction

图像恢复(IR)因其在各种低级视觉应用中具有很高的实用价值而成为一个长期存在的问题[1,9,47]。一般来说,图像恢复的目的是从退化的观测 y = H x + v \mathbf{y =Hx + v } y=Hx+v中恢复潜在的干净图像x,其中H为退化矩阵,v为标准差σ的加性高斯白噪声。通过指定不同的退化矩阵,可以相应地获得不同的 IR 任务。当 H 是单位矩阵时,三个经典的 IR 任务将是图像去噪,当 H 是模糊算子时图像去模糊,当 H 是模糊和下采样的复合算子时图像超分辨率。

由于 IR 是一个不适定逆问题,因此需要采用也称为正则化的先验来约束解空间 [50, 66]。从贝叶斯的角度来看,可以通过求解最大后验 (MAP) 问题来获得解 x ^ \hat{x} x^
x ^ = arg ⁡ max ⁡ x log ⁡ p ( y ∣ x ) + log ⁡ p ( x ) (1) \hat{\mathbf{x}}=\arg \max _{\mathbf{x}} \log p(\mathbf{y} \mid \mathbf{x})+\log p(\mathbf{x})\tag{1} x^=argxmaxlogp(yx)+logp(x)(1)
其中 log p(y|x) 表示观察 y 的对数似然,log p(x) 提供 x 的先验并且与 y 无关。更正式地说,公式(1) 可以重新表述为
x ^ = arg ⁡ min ⁡ x 1 2 ∥ y − H x ∥ 2 + λ Φ ( x ) (2) \hat{\mathbf{x}}=\arg \min _{\mathbf{x}} \frac{1}{2}\|\mathbf{y}-\mathbf{H} \mathbf{x}\|^{2}+\lambda \Phi(\mathbf{x})\tag{2} x^=argxmin21yHx2+λΦ(x)(2)
其中解最小化了由保真项 1 / 2 ‖ y − H x ‖ 2 1/2\mathbf{‖y − Hx‖^2} 1/2yHx2、正则化项 Φ(x) 和权衡参数 λ 组成的能量函数。保真项保证解符合退化过程,而正则化项强制输出的期望属性。

一般来说,求解Eqn(2) 的方法可以分为两大类,即基于模型的优化方法和判别学习方法。基于模型的优化方法旨在直接求解Eqn(2) 有一些优化算法通常涉及耗时的迭代推理。相反,判别学习方法试图通过在包含退化干净图像对的训练集上优化损失函数来学习先验参数 Θ 和紧凑推理 [2, 13, 51, 55, 57]。目标一般由下式给出
min ⁡ Θ ℓ ( x ^ , x )  s.t.  x ^ = arg ⁡ min ⁡ x 1 2 ∥ y − H x ∥ 2 + λ Φ ( x ; Θ ) (3) \min _{\Theta} \ell(\hat{\mathbf{x}}, \mathbf{x}) \quad \text { s.t. } \quad \hat{\mathbf{x}}=\arg \min _{\mathbf{x}} \frac{1}{2}\|\mathbf{y}-\mathbf{H} \mathbf{x}\|^{2}+\lambda \Phi(\mathbf{x} ; \Theta)\tag{3} Θmin(x^,x) s.t. x^=argxmin21yHx2+λΦ(x;Θ)(3)

由于推理是由 MAP 估计指导的,我们将这种方法称为 MAP 推理引导的判别学习方法。通过使用预定义的非线性函数 ^x = f (y, H; Θ) 替换 MAP 推理,可以将普通的判别学习方法视为 Eqn(3) 的一般情况。可以看出,基于模型的优化方法与判别学习方法之间存在明显的区别是,前者可以通过指定退化矩阵 H 来处理各种 IR 任务,而后者需要使用具有一定退化矩阵的训练数据来学习模型。因此,与处理不同 IR 任务灵活性的基于模型的优化方法不同,判别学习方法通常受到专业任务的限制。例如,NCSR[22]等基于模型的优化方法可以灵活地处理去噪、超分辨率和去模糊,而判别学习方法MLP[8]、SRCNN[21]、DCNN[62]分别为这三个任务设计。即使对于去噪等特定任务,基于模型的优化方法(例如 BM3D [17] 和 WNNM [29])也可以处理不同的噪声水平,而 [34] 的判别性学习方法分别为每个级别训练不同的模型。

然而,由于灵活性的牺牲,判别学习方法不仅可以享受快速的测试速度,而且由于联合优化和端到端训练,也倾向于提供有希望的性能。相反,基于模型的优化方法通常是耗时的,具有复杂的先验,以达到良好的性能[27]。因此,这两种方法各有优缺点,因此研究它们利用各自优点的集成将很有吸引力。幸运的是,借助可变分裂技术,如乘法器交替方向法(ADMM)方法[5]和半二次分裂(HQS)方法[28],可以分别处理保真项和正则化项[44],特别是正则化项只对应于一个去噪子问题[18,31,61]。因此,这使得任何判别降噪器集成到基于模型的优化方法中。然而,据我们所知,仍然缺乏与判别降噪器的集成研究。

本文旨在训练一组快速有效的判别去噪器,并将其集成到基于模型的优化方法中,以解决其他逆问题。我们不是学习 MAP 推理引导的判别模型,而是采用普通卷积神经网络 (CNN) 来学习降噪器,以利用 CNN 的最新进展以及 GPU 计算的优点。特别是,在网络设计或训练中采用了几种 CNN 技术,包括整流器线性单元 (ReLU) [37]、批量归一化 [32]、Adam [36]、扩张卷积 [63]。除了为图像去噪提供良好的性能外,学习到的去噪集被插入到基于模型的优化方法中,以解决各种逆问题。这项工作的贡献总结如下:

  • 我们训练了一组快速有效的 CNN 降噪器。通过可变分裂技术,强大的去噪器可以在基于模型的优化方法之前带来强大的图像。
  • 学习到的CNN去噪器集被插入到基于模型的优化方法的模块化部分,以解决其他逆问题。对经典 IR 问题(包括去模糊和超分辨率)的广泛实验证明了集成灵活的基于模型的优化方法和基于 CNN 的快速判别学习方法的优点。

工作介绍:先验是不确定的表示(去噪,超分等图像恢复任务都是病态的输出不可知问题),在去噪领域就是随机输入的噪声,去噪的大多数工作都是先验;文中大量阐述之前的先验和后验工作,从而引出本文的创新:即先验慢,但是有CNN了,那么就可以得到去噪器来优化,并且灵活可集成到其他IR问题的模型中。

2. Background

2.1. Image Restoration with Denoiser Prior

已经有一些尝试将降噪器合并到基于模型的优化方法中,以解决其他逆问题。在[19]中,作者使用纳什均衡推导出一种用于图像去模糊的迭代解耦去模糊BM3D (IDDBM3D)方法。在[24]中,提出了一种用于单图像超分辨率(SISR)的CBM3D去噪先验的类似方法。通过迭代更新反投影步骤和 CBM3D 去噪步骤,该方法在其 PSNR 改进方面比 SRCNN [21] 具有令人鼓舞的性能。在[18]中,采用增广拉格朗日方法将BM3D去噪器融合到图像去模糊方案中。与[19]类似的迭代方案,[61]提出了一种基于ADMM方法的即插即用先验框架。在这里,我们注意到,在[61]之前,[66]中也提到了即插即用的类似想法,其中提出了一种用于图像去噪、去模糊和修复的半二次分裂(HQS)方法。在[31]中,作者使用ADMM和HQS的替代方案,即原始对偶算法[11],将保真项和正则化项解耦。其他一些相关工作可以在 [6, 12, 48, 49, 54, 58] 中找到。以上所有方法都表明,保真项和正则化项的解耦可以实现各种现有的去噪模型来解决不同的图像恢复任务。

我们可以看到去噪先验可以通过各种方式插入到迭代方案中。这些方法背后的共同想法是解耦保真项和正则化项。出于这个原因,他们的迭代方案通常涉及保真项相关子问题和去噪子问题。在下一小节中,由于其简单性,我们将使用 HQS 方法为例。需要注意的是,虽然HQS可以被视为处理不同图像恢复任务的通用方法,但也可以将去噪器合并到其他方便和适当的优化方法中,以获得特定的应用。

2.2. Half Quadratic Splitting (HQS) Method

基本上,为了将去噪器插入到Eqn(2)的优化过程中。通常采用变量分割技术解耦保真项和正则化项。在半二次分裂方法中,通过引入辅助变量 z、Eqn(2) 可以重新表述为约束优化问题,由下式给出
x ^ = arg ⁡ min ⁡ x 1 2 ∥ y − H x ∥ 2 + λ Φ ( z )  s.t.  z = x (4) \hat{\mathbf{x}}=\arg \min _{\mathbf{x}} \frac{1}{2}\|\mathbf{y}-\mathbf{H} \mathbf{x}\|^{2}+\lambda \Phi(\mathbf{z}) \quad \text { s.t. } \quad \mathbf{z}=\mathbf{x}\tag{4} x^=argxmin21yHx2+λΦ(z) s.t. z=x(4)
然后,HQS方法试图最小化以下成本函数
L μ ( x , z ) = 1 2 ∥ y − H x ∥ 2 + λ Φ ( z ) + μ 2 ∥ z − x ∥ 2 (5) \mathcal{L}_{\mu}(\mathbf{x}, \mathbf{z})=\frac{1}{2}\|\mathbf{y}-\mathbf{H} \mathbf{x}\|^{2}+\lambda \Phi(\mathbf{z})+\frac{\mu}{2}\|\mathbf{z}-\mathbf{x}\|^{2}\tag{5} Lμ(x,z)=21yHx2+λΦ(z)+2μzx2(5)
其中 μ 是一个惩罚参数,它以非降序迭代变化。等式(5)可以通过以下迭代方案求解,
{ x k + 1 = arg ⁡ min ⁡ x ∥ y − H x ∥ 2 + μ ∥ x − z k ∥ 2 z k + 1 = arg ⁡ min ⁡ z μ 2 ∥ z − x k + 1 ∥ 2 + λ Φ ( z ) (6) \left\{\begin{array}{l} \mathbf{x}_{k+1}=\arg \min _{\mathbf{x}}\|\mathbf{y}-\mathbf{H} \mathbf{x}\|^{2}+\mu\left\|\mathbf{x}-\mathbf{z}_{k}\right\|^{2} \\ \mathbf{z}_{k+1}=\arg \min _{\mathbf{z}} \frac{\mu}{2}\left\|\mathbf{z}-\mathbf{x}_{k+1}\right\|^{2}+\lambda \Phi(\mathbf{z}) \end{array}\right.\tag{6} {xk+1=argminxyHx2+μxzk2zk+1=argminz2μzxk+12+λΦ(z)(6)
可以看出,保真项和正则化项被解耦为两个单独的子问题。具体来说,保真项与二次正则化最小二乘问题(即Eqn)相关联对不同的退化矩阵有不同的快速解决方案。直接解由下式给出
x k + 1 = ( H T H + μ I ) − 1 ( H T y + μ z k ) (7) \mathbf{x}_{k+1}=\left(\mathbf{H}^{T} \mathbf{H}+\mu \mathbf{I}\right)^{-1}\left(\mathbf{H}^{T} \mathbf{y}+\mu \mathbf{z}_{k}\right)\tag{7} xk+1=(HTH+μI)1(HTy+μzk)(7)

正则化项涉及方程式(6b) 可以重写为
z k + 1 = arg ⁡ min ⁡ z 1 2 ( λ / μ ) 2 ∥ x k + 1 − z ∥ 2 + Φ ( z ) (8) \mathbf{z}_{k+1}=\arg \min _{\mathbf{z}} \frac{1}{2(\sqrt{\lambda / \mu})^{2}}\left\|\mathbf{x}_{k+1}-\mathbf{z}\right\|^{2}+\Phi(\mathbf{z})\tag{8} zk+1=argzmin2(λ/μ )21xk+1z2+Φ(z)(8)

根据贝叶斯概率,Eqn(8) 对应于通过噪声水平 √λ/μ 的高斯噪声去噪对图像 xk+1 进行去噪。因此,任何高斯降噪器都可以作为解决Eqn(2)的模块化部分。为了解决这个问题,我们重写了方程式(8) 如下
z k + 1 = Denoiser ⁡ ( x k + 1 , λ / μ ) (9) \mathbf{z}_{k+1}=\operatorname{Denoiser}\left(\mathbf{x}_{k+1}, \sqrt{\lambda / \mu}\right)\tag{9} zk+1=Denoiser(xk+1,λ/μ )(9)
值得注意的是,根据方程式(8) 和 (9),图像先验 Φ(·) 可以隐式替换为降噪器先验。这种有希望的属性实际上有几个优点。首先,它能够使用任何灰色或颜色降噪器来解决各种逆问题。其次,在求解Eqn时,显式图像先验Φ(·)是未知的。(2)。第三,可以联合使用几种利用不同图像先验的互补降噪器来解决一个特定的问题。请注意,只要涉及去噪子问题,此属性也可以用于其他优化方法(例如迭代收缩/阈值算法 ISTA [4, 14] 和 FISTA [3])。

3. Learning Deep CNN Denoiser Prior

3.1. Why Choose CNN Denoiser?

作为等式(2) 的正则化项。在恢复性能中起着至关重要的作用,因此去噪先验的选择在 Eqn(9) 中非常重要。现有的基于模型的优化方法中采用的去噪先验来解决其他逆问题包括总变异(TV)[10,43]、高斯混合模型(GMM)[66]、K-SVD[25]、非局部均值[7]和BM3D[17]。这种降噪器先验有各自的缺点。例如,TV 可以创建类似水彩的伪影; K-SVD 降噪器先验计算负担很高;如果图像没有表现出自相似性属性,非局部均值和 BM3D 降噪器先验可能会过度平滑不规则结构。因此,迫切需要高效实现的强降噪器先验。

无论速度和性能如何,彩色图像先验或去噪也是需要考虑的关键因素。这是因为现代相机获取的大部分图像或互联网传输都是 RGB 格式。由于不同颜色通道之间的相关性,人们承认联合处理颜色通道往往比独立处理每个颜色通道[26]产生更好的性能。然而,现有的方法主要集中在灰度图像先验建模上,只有少数工作集中在彩色图像先验建模上(参见[16,41,46])。也许最成功的彩色图像先验建模方法是CBM3D[16]。它首先通过手工设计的线性变换将图像解耦为亮度-色度颜色空间,然后在每个变换后的颜色通道中应用灰度BM3D方法。虽然CBM3D在彩色图像去噪方面很有前景,但有人指出,得到的变换后的亮度色度颜色通道仍然存在一定的相关性[42],最好联合处理RGB通道。因此,使用判别学习方法自动揭示底层彩色图像先验不是利用手工设计的管道,而是是一个很好的替代方案。

通过考虑速度、性能和判别彩色图像先验建模,我们选择深度 CNN 来学习判别降噪器。使用 CNN 的原因有四个方面。首先,由于 GPU 的并行计算能力,CNN 的推理非常有效。其次,CNN 使用深度架构展示了强大的先验建模能力。第三,CNN 利用外部先验,这是对许多现有降噪器(如 BM3D)的内部先验的补充。换句话说,与 BM3D 的组合有望提高性能。第四,在过去的几年里,训练和设计 CNN 取得了很大进展,我们可以利用这些进展来促进判别学习。

3.2. The Proposed CNN Denoiser

在这里插入图片描述
所提出的CNN去噪器的体系结构如图1所示。它由7层组成,具有三个不同的块,即第一层的“扩张卷积+ReLU”块、中间层的五个“扩张卷积+批归一化+ReLU”块和最后一层的“扩张卷积”块。(3×3) 扩张卷积从第一层到最后一层的膨胀因子分别设置为 1、2、3、4、3、2 和 1。每个中间层的特征图数设置为 64。在下文中,我们将在我们的网络设计和训练中提供一些重要的细节。

网络结构:7层,第一层DConv+ReLU,中间五层DConv+BN+ReLU,最后一层DConv。特征数为64。

将扩张滤波器应用于大感受野。众所周知,上下文信息有助于在图像去噪中重建损坏的像素。在 CNN 中,为了捕获上下文信息,它通过前向卷积操作依次扩大感受野。一般来说,有两种基本的方法来扩大CNN的接受域,即增加滤波器的大小和增加深度。然而,增加滤波器大小不仅会引入更多的参数,而且会增加计算负担[53]。因此,在现有的CNN网络设计[30,35,56]中,使用具有大深度的3×3滤波器得到了推广。在本文中,我们改为使用最近提出的扩张卷积来权衡感受野的大小和网络深度。扩展卷积以其接受域的扩展能力而闻名,同时保持传统3×3卷积的优点。膨胀因子 s 的膨胀滤波器可以简单地解释为大小为 (2s+1)×(2s+1) 的稀疏滤波器,其中只有 9 个固定位置的项可以是非零的。因此,每一层的等效感受野为3、5、7、9、7、5 和 3。因此,可以很容易地得到所提出网络的感受野为 33×33。如果使用传统的 3×3 卷积滤波器,网络要么具有大小为 15×15 的感受野,具有相同的网络深度(即 7),要么深度为 16,具有相同的感受野(即 33×33)。为了证明我们的设计优于上述两种情况的优势,我们在具有相同训练设置的噪声级别 25 上训练了三个不同的模型。结果表明,我们设计的模型在BSD68数据集[50]上的平均PSNR为29.15dB,优于传统的3×3卷积滤波器的7层网络的28.94dB,非常接近16层网络的29.20dB。


使用膨胀卷积的目的:增大感受野,捕获更多的上下文信息。但是我们已经学过MWCNN了,会发现膨胀卷积是稀疏的,有网格效应,性能受限。即传统卷积<膨胀卷积<DWT和IWT

在这里插入图片描述


使用批量归一化和残差学习来加速训练。虽然先进的梯度优化算法可以加速训练和提高性能,但架构设计也是一个重要因素。批量归一化和残差学习是最近 CNN 架构设计技术中的两个最具影响力的架构设计技术被广泛采用。特别是,有人指出批量归一化和残差学习的结合对高斯去噪特别有帮助,因为它们彼此有益。具体来说,它不仅可以实现快速稳定的训练,而且往往会带来更好的去噪性能[65]。在本文中,采用了这种策略,我们凭经验发现它也可以实现从一个模型快速转移到另一个具有不同噪声水平的模型。

使用BN和残差学习的目的:BN主要是为了训练稳定,残差学习有利于基于高斯白噪声的去噪(DnCNN),学习噪声而不直接学习去噪后的图像。注:BN在超分任务中效果不好,一般不用BN层。

使用小尺寸的训练样本来帮助避免边界伪影。由于卷积的特点,CNN的去噪图像可能会在不适当处理的情况下引入恼人的边界伪影。有两种常见的方法来解决这个问题,即对称填充和零填充。我们采用零填充策略,希望设计的 CNN 有能力对图像边界进行建模。请注意,第四层中膨胀因子 4 的扩张卷积在每个特征图的边界填充 4 个零。我们凭经验发现,使用小尺寸的训练样本可以帮助避免边界伪影。主要原因是,与其使用大尺寸的训练补丁,将它们裁剪成小块可以使CNN看到更多的边界信息。例如,通过将大小为70×70的图像块裁剪成大小为35×35的四个小非重叠块,将在很大程度上增强4形成的边界。我们还通过使用大尺寸的补丁测试了性能,我们凭经验发现这并没有提高性能。但是,如果训练补丁的大小小于感受野,则性能下降。

切成图像块的目的:为了避免边界伪影。无论是去噪还是超分,都切成块,块大小必须大于感受野。

学习具有小区间噪声水平的特定去噪模型。由于迭代优化框架需要具有不同噪声水平的各种去噪模型,因此应考虑如何训练判别模型的实际问题。各种研究表明,如果子问题的精确解(即Eqn.(6a) 和等式。(6b))) 难以优化或耗时,然后使用不精确但快速的子问题解决方案可能会加速收敛 [39, 66]。在这方面,他们不需要为每个噪声水平学习许多判别降噪器模型。另一方面,尽管方程式(9) 是一个降噪器,它与传统的高斯去噪有不同的目标。传统的高斯去噪的目标是恢复潜在的干净图像,但是,无论要去噪图像的噪声类型和噪声水平如何,这里的去噪器只起到自己的作用。因此,Eqn中理想的判别降噪器。(9) 应该由当前的噪声水平训练。因此,权衡设置降噪器的数量。在本文中,我们在噪声水平范围 [0, 50] 上训练一组降噪器,并将其除以每个模型的步长为 2,从而为每个灰色和彩色图像先验建模生成一组 25 个降噪器。由于迭代方案,事实证明[0,50]的噪声水平范围足以处理各种图像恢复问题。特别值得注意的是,去噪器的数量远远少于为不同的退化学习不同的模型的数量。

学习噪声区间:更通用和泛化。

4. Experiments

4.1. Image Denoising

众所周知,卷积神经网络通常受益于大型训练数据的可用性。因此,我们不是在由400张大小为180×180[13]的伯克利分割数据集(BSD)图像组成的小型数据集上进行训练,而是收集了一个大型数据集,其中包括400张BSD图像、400张来自ImageNet数据库验证集的图像[20]和4744张滑铁卢探索数据库[40]的图像。我们凭经验发现,使用大型数据集并不能提高 BSD68 数据集 [50] 的 PSNR 结果,但可以略微提高其他测试图像的性能。我们将图像裁剪成大小为 35×35 的小补丁,并选择 N =256×4,000 个补丁进行训练。至于生成相应的噪声补丁,我们通过将加性高斯噪声添加到训练期间的干净补丁。由于采用了残差学习策略,我们使用以下损失函数,
ℓ ( Θ ) = 1 2 N ∑ i = 1 N ∥ f ( y i ; Θ ) − ( y i − x i ) ∥ F 2 (10) \ell(\Theta)=\frac{1}{2 N} \sum_{i=1}^{N}\left\|f\left(\mathbf{y}_{i} ; \Theta\right)-\left(\mathbf{y}_{i}-\mathbf{x}_{i}\right)\right\|_{F}^{2}\tag{10} (Θ)=2N1i=1Nf(yi;Θ)(yixi)F2(10)
其中 {(yi, xi)}N i=1 表示 N 个噪声干净的补丁对。为了优化网络参数 Θ,采用了 Adam 求解器 [36]。步长从 1e-3 开始,然后在训练误差停止减小时固定为 1e-4。如果训练误差在五个顺序 epoch 中固定,则训练终止。对于 Adam 的其他超参数,我们使用它们的默认设置。小批量大小设置为 256。小批量学习期间使用基于旋转或/翻转的数据增强。降噪器模型在Matlab (R2015b)环境中使用MatConvNet包[60]和Nvidia Titan X GPU进行训练。为了减少整个训练时间,一旦获得模型,我们使用该模型初始化相邻降噪器。训练去噪模型集大约需要三天。

我们将提出的denioser与几种最先进的去噪方法进行了比较,包括两种基于模型的优化方法(即BM3D[17]和WNNM[29])、两种判别学习方法(即MLP[8]和TNRD[13])。BSD68数据集上不同方法的灰度图像去噪结果如表1所示。可以看出,WNNM、MLP和TNRD在PSNR上比BM3D高出约0.3dB。然而,与这三种方法相比,所提出的 CNN 降噪器的 PSNR 增益约为 0.2dB。表2显示了基准CBM3D和我们提出的CNN去噪器的彩色图像去噪结果,可以看出所提出的去噪器的性能始终优于CBM3D。这种有希望的结果可以归因于 CNN 强大的彩色图像先验建模能力。
在这里插入图片描述

对于运行视觉,由于其在实际应用中的潜在价值,我们将其与 BM3D 和 TNRD 进行了比较。由于所提出的降噪器和 TNRD 支持 GPU 上的并行计算,我们还给出了 GPU 运行时间。为了在相似的PSNR性能下与TNRD进行进一步比较,我们还提供了所提出的降噪器的运行时间,其中每个中间层有 24 个特征图。我们使用 Nvidia cuDNN-v5 深度学习库来加速 GPU 计算,不考虑 CPU 和 GPU 之间的内存传输时间。表 3 显示了不同方法在噪声水平为 25 的情况下去噪大小为 256×256、512×512 和 1024×1024 的图像的运行时间。我们可以看到,所提出的降噪器在 CPU 和 GPU 实现中都非常具有竞争力。值得强调的是,所提出的具有每层24个特征映射的去噪器具有与TNRD相当的PSNR为28.94dB,但速度更快。TNRD 的速度和性能之间的如此良好的折衷正确地归因于以下三个原因。首先,采用的3×3卷积和ReLU非线性简单而有效和高效。其次,与 TNRD 的阶段架构相比,TNRD 在每个直接输出层本质上都有一个瓶颈,我们鼓励不同层的信息流流畅,因此模型容量更大。第三,采用了有利于高斯去噪的批量归一化。根据上述讨论,我们可以得出结论,所提出的降噪器是 BM3D 和 TNRD 的有力竞争者。在这里插入图片描述

4.2. Image Deblurring

作为一种常见的设置,首先通过应用模糊核来合成模糊图像,然后添加噪声水平为σ的加性高斯噪声。此外,我们假设卷积是用圆形边界条件进行的。因此,Eqn (7) 的有效实现。通过使用可以采用的快速傅里叶变换 (FFT) 。为了进行彻底的评估,我们考虑了三个模糊核,包括一个常用的标准差为1.6的高斯核和来自[38]的八个真实模糊核中的前两个。如表 4 所示,我们还考虑了高斯不同噪声水平的噪声。对于比较方法,我们选择了一种名为 MLP [52] 和三种基于模型的优化方法的判别方法,包括 IDDBM3D [19]、NCSR [22] 和 EPLL。在测试图像中,除了图 2 所示的三个经典灰度图像外,还包括三个彩色图像,以便我们可以测试学习的颜色降噪器先验的性能。同时,我们注意到上述方法是为灰度图像去模糊而设计的。特别是,NCSR通过将颜色输入YCbCr空间,然后在亮度分量中进行主算法来处理颜色输入。在接下来的实验中,我们简单地将颜色降噪器插入HQS框架中,而我们分别处理IDDBM3D和MLP的每个颜色通道。请注意,MLP 为噪声水平为 2 的高斯模糊内核训练了一个特定的模型。在这里插入图片描述
在这里插入图片描述
一旦提供了降噪器,后续的关键问题将是参数设置。从方程式(6),我们可以注意有两个参数 λ 和 μ 来调整。通常,对于某些退化,λ 与 σ2 相关并在迭代期间保持固定,而 μ 控制降噪器的噪声水平。由于HQS框架是基于降噪器的,我们在每次迭代中设置降噪器的噪声水平,以隐式确定μ。请注意,去噪器√λ/μ的噪声水平应从大到小设置。在我们的实验中,它根据噪声水平从 49 指数衰减到 [1, 15] 中的值。迭代次数设置为 30,因为我们发现它足够大以获得令人满意的性能。

不同方法的PSNR结果如表4所示。可以看出,本文提出的基于CNN去噪先验的优化方法获得了非常有前景的PSNR结果。图 3 说明了不同方法的去模糊叶子图像。我们可以看到 IDDBM3D、NCSR 和 MLP 倾向于平滑边缘并生成颜色伪影。相比之下,所提出的方法可以恢复图像的清晰度和自然度。在这里插入图片描述

4.3. Single Image Super-Resolution

一般来说,低分辨率(LR)图像可以通过高分辨率图像的模糊和随后的下采样操作来建模。然而,现有的超分辨率模型主要关注图像先验的建模,并针对特定的退化过程进行训练。当训练中采用的模糊核偏离真实核时,这使得学习模型会严重恶化[23,64]。相反,我们的模型可以在不重新训练的情况下处理任何模糊核。因此,为了彻底评估基于 CNN 降噪器的优化方法的灵活性以及 CNN 降噪器的有效性,在 [45] 之后,本文考虑了 SISR 的三种典型图像退化设置,即具有两个比例因子 2 和 3 [15, 21] 的双三次下采样(Matlab 函数 imresize 的默认设置),并通过标准差为 1.6 的高斯核进行模糊,然后是比例因子为 3 的下采样 [22, 45]。

受[24]中提出的迭代更新反投影[33]步骤和SISR去噪步骤的方法的启发,我们使用以下反投影迭代来求解Eqn(6a),
x k + 1 = x k − α ( y − x k ↓ s f ) ↑ b i c u b i c s f (11) \mathbf{x}_{k+1}=\mathbf{x}_{k}-\alpha\left(\mathbf{y}-\mathbf{x}_{k} \downarrow_{s f}\right) \uparrow_{b i c u b i c}^{s f}\tag{11} xk+1=xkα(yxksf)bicubicsf(11)
其中↓sf表示降尺度因子sf的退化算子,↑sfbicubic表示放大因子sf的双三次插值算子,α为步长。值得注意的是,NCSR和WNNM等方法的迭代正则化步骤实际上对应于求解Eqn。(6a)。从这个角度来看,这些方法在 HQS 框架下进行了优化。这里,请注意[24]中只考虑双三次下采样,而Eqn(11) 被扩展为处理不同的模糊核。为了获得快速收敛,我们重复 Eqn(11) 在应用去噪步骤之前五次。主迭代次数设置为30,步长α固定为1.75,去噪器的噪声水平从12×sf指数衰减到sf。

将提出的基于深度CNN去噪先验的SISR方法与五种最先进的方法进行比较,包括两种基于cnn的鉴别学习方法(即SRCNN[21]和VDSR[35]),一种基于统计预测模型的判别学习方法[45],我们称之为SPMSR,一种基于模型的优化方法(即NCSR[22])和基于去噪先验的方法(即SRBM3D[24])。除了SRBM3D外,所有现有的方法都是在变换后的YCbCr空间的Y通道(即亮度)上的主要算法。为了评估所提出的颜色去噪先验,我们还对原始RGB通道进行了实验,给出了不同方法的超分辨RGB图像的PSNR结果。由于SRBM3D的源代码不可用,我们还比较了两种方法,将所提出的CNN去噪器替换为BM3D/CBM3D去噪器。这两种方法分别用SRBM3DG和SRBM3DC表示。

表 5 显示了 Set5 和 Set14 [59] 上 SISR 不同方法的平均 PSNR(dB) 结果。请注意,SRCNN 和 VDSR 使用双三次模糊核进行训练,因此使用他们的模型用高斯核超分辨率低分辨率图像是不公平的。事实上,我们给出了它们的性能来证明这种判别学习方法的局限性。从表 5 中,我们可以有几个观察结果。首先,虽然SRCNN和VDSR在双三次核的情况下取得了很好的效果,但当低分辨率图像不是由双三次核生成的时,它们的性能会严重恶化(见图4)。另一方面,通过精确的模糊核,即使是NCSR和SPMSR在高斯模糊核上优于SRCNN和VDSR。相比之下,所提出的方法(由 ProposedG 和 ProposedC 表示)可以很好地处理所有情况。其次,所提出的方法比 SRBM3DC 和 SRBM3DG 具有更好的 PSNR 结果,这表明先验良好的去噪有助于解决超分辨率问题。第三,基于灰度和颜色 CNN 降噪器的优化方法都可以产生有希望的结果。作为测试速度比较的一个例子,我们的方法可以在 GPU 上以 0.5 秒超分辨率蝴蝶图像,CPU 上为 12 秒,而 NCSR 在 CPU 上花费 198 秒。在这里插入图片描述
在这里插入图片描述

5. Conclusion

在本文中,我们设计并训练了一组快速有效的CNN去噪器进行图像去噪。特别是,在变量分裂技术的帮助下,我们将学习到的去噪器插入到HQS的基于模型的优化方法中,以解决图像去模糊和超分辨率问题。大量的实验结果表明,基于模型的优化方法和判别CNN去噪的集成为各种图像恢复任务带来了灵活、快速有效的框架。一方面,与传统的基于模型的优化方法不同,传统的基于模型的优化方法往往耗时复杂,以达到良好的效果,由于快速CNN去噪器的插件,本文提出的基于深度CNN去噪器先验优化方法可以有效地实现。另一方面,与专门用于某些图像恢复任务的判别学习方法不同,所提出的基于深度 CNN 去噪先验的优化方法在处理各种任务时灵活,可以产生非常有利的结果。总之,这项工作强调了集成灵活的基于模型的优化方法和快速判别学习方法的潜在好处。此外,这项工作表明,学习富有表现力的 CNN 降噪器先验是建模图像先验的一个很好的替代方案。

虽然我们已经展示了将强大的 CNN 降噪器插入基于模型的优化方法的各种优点,但仍有进一步研究的空间。一些研究方向如下。首先,研究如何减少判别 CNN 降噪器的数量和整次迭代的数量会很有趣。其次,将提出的基于 CNN 降噪器的 HQS 框架扩展到其他逆问题,例如修复和盲去模糊也将很有趣。第三,利用补充提高性能的多个先验肯定是一个很有前途的方向。最后,也许最有趣的是,由于 HQS 框架可以被视为 MAP 推理,这项工作还提供了一些关于为特定任务判别学习设计 CNN 架构的见解。同时,人们应该意识到 CNN 有自己的设计灵活性,最好的 CNN 架构不一定受到 MAP 推理的启发。


总结:
在这里插入图片描述

  • 7层DConv+ReLU结构
  • 第一层没有BN,最后一层为了预测残差只有DConv
  • 膨胀卷积的膨胀因子为1234321

接下来马不停蹄地来到复现文章吧!看看如何使用IRCNN实现图像去噪!

本文对应的复现文章:【图像去噪】论文复现:支持任意大小的图像输入!四十多行实现Pytorch极简版本的IRCNN,各种参数和测试集平均PSNR结果与论文一致!


至此本文结束。

如果本文对你有所帮助,请点赞收藏,创作不易,感谢您的支持!

  • 11
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

十小大

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值