Closed-loop Matters: Dual Regression Networks forSingle Image Super-Resolution

闭环问题:用于单图像超分辨率的双回归网络

通过学习从低分辨率(LR)图像到高分辨率(HR)图像的非线性映射函数,深度神经网络在图像超分辨率(SR)方面表现出良好的性能。然而,现有SR方法有两个潜在的局限性。首先,学习从LR图像到HR图像的映射函数通常是一个病态问题,因为存在可以下采样到相同LR图像的无限HR图像。因此,可能函数的空间可能非常大,这使得很难找到一个好的解决方案。第二,成对的LR-HR数据在实际应用中可能不可用,并且潜在的退化方法通常是未知的。对于这样一种更一般的情况,现有的SR模型通常会产生自适应问题,并产生较差的性能。为了解决上述问题,我们提出了一种双重回归方案,通过在LR数据上引入额外的约束来减少可能函数的空间。

具体来说,除了从LR到HR图像的映射之外,我们还学习了一个额外的双重回归映射,它估计下采样核并重建LR图像,这形成了一个闭环以提供额外的监督。更重要的是,由于双重回归过程不依赖于HR图像,我们可以直接从LR图像中学习。从这个意义上讲,我们可以很容易地将SR模型适应现实世界数据,例如,来自YouTube的原始视频帧。使用成对训练数据和非成对真实世界数据的大量实验证明了我们优于现有方法

1. Introduction

深度神经网络(DNN)已经成为许多现实世界应用的主力,包括图像分类[18,14,9,15,27,13],视频理解[46,45,44,6]和许多其他应用[7,50,52,11,20]。近年来,图像超分辨率(SR)已成为一项重要任务,其目的是学习从低分辨率(LR)图像重建高分辨率(HR)图像的非线性映射。基于DNN,已经提出了许多改进SR性能的方法[51,26,10,12,49]。然而,这些方法可能有两个局限性。

首先,学习从LR图像到HR图像的映射通常是一个病态问题,因为存在无限多的HR图像,这些HR图像可以被缩小以获得相同的LR图像[36]。因此,将LR映射到HR图像的可能函数的空间变得非常大。因此,学习性能可能会受到限制,因为在如此大的空间中学习好的解决方案非常困难。为了提高SR性能,可以通过增加模型容量来设计有效的模型,例如EDSR[26]、DBPN[16]和RCAN[51]。然而,这些方法仍然存在可能的映射函数的大空间问题,导致性能有限,而不会产生清晰的纹理[24](见图1)。因此,如何减少映射函数的可能空间以改进SR模型的训练成为一个重要问题。

其次,当配对数据不可用时,很难获得有前景的SR模型[43,54]。请注意,大多数SR方法依赖于成对的训练数据,即HR图像及其双三次退化LR对应物。然而,成对数据可能不可用,而未成对数据通常支配着现实世界的应用程序。此外,现实世界数据不一定具有与通过特定退化方法(例如,Bicubic)获得的LR图像相同的分布。因此,为现实世界的应用程序学习一个好的SR模型是非常具有挑战性的。更重要的是,如果我们将现有的SR模型直接应用于真实世界数据,它们通常会产生严重的适应问题,并产生较差的性能[43,54]。因此,如何有效地利用非成对数据,使SR模型适应现实应用成为一个紧迫而重要的问题。

在本文中,我们提出了一种新的双回归方案,该方案形成闭环以提高SR性能。为了解决第一个限制,我们引入了一个额外的约束来减少可能的空间,使得超分辨率图像可以重建输入LR图像。理想情况下,如果来自LR的映射→HR是最优的,可以对超分辨率图像进行下采样以获得相同的输入LR图像。有了这样的约束,我们就能够估计潜在的下采样核,从而减少可能函数的空间,以找到从LR到HR的良好映射(见备注1中的理论分析)。

因此,更容易获得有前景的SR模型(见图1中的比较)。为了解决第二个限制,由于LR图像的回归不依赖于HR图像,我们的方法可以直接从LR图像中学习。通过这种方式,我们可以轻松地将SR模型调整为真实的LR数据,例如,来自Y outube的原始视频帧。利用成对训练数据和非成对真实世界数据对SR任务进行的大量实验表明,我们的方法优于现有方法。

我们的贡献总结如下:

我们通过引入额外的约束来开发双重回归方案,使得映射可以形成闭环,并且LR图像可以被重建以增强SR模型的性能。此外,我们还从理论上分析了该方案的泛化能力,这进一步证实了其优于现有方法的优越性;我们研究了一个更一般的超分辨率情况,其中没有与真实世界LR数据相对应的HR数据。使用所提出的双重回归方案,深度模型可以很容易地适应真实世界数据,例如,来自YouTube的原始视频帧;利用成对训练数据和非成对真实世界数据对SR任务进行的大量实验证明了所提出的双重回归方案在图像超分辨率中的有效性

2. Related Work 

......

3. Proposed Method

我们提出了一种双重回归方案来处理超分辨率(SR)的成对和非成对训练数据。总体培训方案如图2所示。

3.1. Dual Regression Scheme for Paired Data

现有的方法只关注学习从LR到HR图像的映射。然而,可能的映射函数的空间可能非常大,这使得训练非常困难。为了解决这个问题,我们提出了一个双重回归方案,通过对LR数据引入额外的约束。具体来说,除了学习映射LR→ HR,我们还学习了从超分辨率图像到LR图像的逆/对偶映射。

让x∈ X是LR图像,y是∈ Y是HR图像。

我们同时学习原始映射P来重建HR图像和对偶映射D来重建LR图像。注意,对偶映射可以被视为底层下采样核的估计。形式上,我们将SR问题表述为包含两个回归任务的双重回归方案。

Definition 1 (Primal Regression Task) 我们寻求一个函数P:X→Y、 使得预测P(x)类似于其对应的HR图像Y。

Definition 2 (Dual Regression Task)我们寻求一个函数D:Y→使得D(y)的预测类似于原始输入LR图像X。

原始和双重学习任务可以形成闭环,并为训练模型P和D提供信息监督。如果P(x)是正确的HR图像,则下采样图像D(P(x))应该非常接近输入LR图像x。为了验证这一点,我们在第4.2节中提供了理论分析。

事实上,我们还可以在HR域上添加一个约束,即缩小和放大以重建原始HR图像。然而,它大大增加了计算成本(约为原始SR模型的2倍),性能改进非常有限(见补充结果)。在实践中,我们只在LR数据上添加了双重回归损失,这显著提高了性能,同时保持了与原始SR模型大致相同的成本(见第4.1节中的讨论)。

3.2. Dual Regression for Unpaired Data

我们考虑一个更一般的SR情况,其中没有与真实LR数据相对应的HR数据。更重要的是,LR图像的退化方法通常是未知的,这使得这个问题非常具有挑战性。在这种情况下,现有的SR模型通常会产生严重的适应问题[43,54]。为了缓解这个问题,我们提出了一种有效的算法,使SR模型适应新的LR数据。训练算法如算法1所示。

注意,双重回归映射学习了潜在的退化方法,并不一定依赖于HR图像。因此,我们可以使用它直接从未配对的真实世界LR数据中学习,以执行模型自适应。

为了确保HR图像的重建性能,我们还结合了来自配对合成数据的信息,这些信息可以非常容易地获得(例如,使用双三次核)。给定M个非成对LR样本和N个成对合成样本,目标函数可以写成:

3.3. Training Method

Training method on paired data.

给定成对训练数据,我们遵循监督SR方法[16,26]的学习方案,并通过最小化方程。(1). 更多详情见第5节和补充说明。

Training method on unpaired data.

3.4. Differences from CycleGAN based SR Methods

与基于CycleGAN的SR方法相比,DRN有一些差异和优势。首先,基于CycleGAN的方法[43,56]在解决欠约束图像转换问题时使用循环一致性损失来避免可能的模式崩溃问题[56]。与这些方法不同,我们试图通过添加额外的约束来提高SR模型的性能,通过将SR图像映射回对应的LR图像。其次,基于CycleGAN的方法完全丢弃了成对的合成数据,然而,这很容易获得。相反,我们的DRN同时利用成对的合成数据和真实世界中未成对的数据来增强训练

4. More Details

在本节中,我们首先描述了双重回归网络(DRN)的架构。然后,我们进行了理论分析以证明所提出的双重回归方案

4.1. Architecture Design of DRN

我们在超分辨率U-Net设计的基础上构建DRN[22,31](见图3)。我们的DRN模型由两部分组成:原始网络和双网络。我们提供每个网络的详细信息如下。

原始网络遵循U-Net的下采样设计。下采样(图3的左半部分)和上采样(图2的右半部分)模块都包含log2(s)基本块,其中s表示比例因子。这意味着网络将有2个块用于4×放大(见图3),3个块用于8×放大。与基线U-Net不同,我们使用B剩余信道关注块(RCAB)[51]构建每个基本块,以提高模型容量。在[39,23]之后,我们添加额外的输出以生成相应比例的图像(即1×、2×和4×图像),并将建议的损失应用于它们以训练模型。请注意,在将LR图像馈送到原始网络之前,我们使用双三次内核对其进行放大。详情请参阅补充资料。

我们设计了一个双网络,从超分辨率图像中产生下采样的LR图像(见图3中的红线)。请注意,双重任务旨在学习下采样操作,这比学习上缩放映射的原始任务简单得多。因此,我们设计了只有两个卷积层和一个LeakyReLU激活层的对偶模型[28],该模型的计算成本比原始模型低得多,但在实践中运行良好(见第5节中的结果)

4.2. Theoretical Analysis

我们从理论上分析了所提出的双重回归方案在配对数据上的推广界限。由于不成对数据的情况更为复杂,我们将在未来研究理论分析方法。由于篇幅限制,所有的定义、证明和引理都放在补充部分中。

......

5. Experiments

在双三次配对数据和非配对真实世界数据的场景下,我们对所提出的图像超分辨率任务进行了广泛的评估。所有实现都基于PyTorch

5.1. Results on Supervised Image Super-Resolution

在本节中,我们首先在图4中展示了4×和8×SR在性能和模型大小方面的示例性比较。然后,我们提供了4×SR和8×SR的详细比较。在实验中,我们提出了两个模型,即小型模型DRN-S和大型模型DRN-L。我们从预训练模型、发布的代码或原始论文中获得所有比较方法的结果。

 5.1.1 Datasets and Implementation Details

我们在五个基准数据集上比较了不同的方法,包括SET5[3]、SET14[47]、BSDS100[1]、URBAN100[21]和MANGA109[29]。采用两种常用的图像质量度量作为度量,例如PSNR和SSIM[38]。按照[37],我们在DIV2K[34]和Flickr2K[26]数据集上训练我们的模型。

5.1.2 Comparison with State-of-the-art Methods

我们将我们的方法与最先进的SR方法在定量结果和视觉结果方面进行了比较。对于定量比较,我们比较了4×和8×超分辨率的不同方法的PSNR和SSIM值。从表1中可以看出,我们的DRN-S具有大约5M的参数,具有良好的性能。我们的DRN-L具有大约10M个参数,对于4×SR,其性能与考虑的方法相当,对于8×SR的性能最好。为了进行质量比较,我们提供了我们的方法和考虑的方法的视觉比较(见图5)。对于4×和8×SR,我们的模型始终产生更清晰的边缘和形状,而其他基线可能会产生更模糊的边缘。结果证明了所提出的双重回归方案在遗传算法中的有效性-生成更准确和视觉上有希望的HR图像。补充资料中有更多结果。

我们还比较了4×和8×SR的不同模型中的参数数量。由于页面限制,我们只显示了4×SR和8×SR的结果。从图4中,我们的DRN-S通过少量参数获得了良好的性能。当我们增加信道和层的数量时,更大的模型DRN-L进一步提高了性能并获得了最佳结果。实验结果和定理1中的理论分析都表明了所提出的图像超分辨率双重回归方案的有效性。

5.2.未配对数据的适应结果

在本实验中,我们将所提出的方法应用于各种真实世界的未配对数据。与监督设置不同,我们首先考虑一个玩具案例,其中我们使用不同的退化方法(例如,Nearest和BD[48])评估LR图像上的SR模型。在训练过程中,我们只能访问LR图像,而不能访问其对应的HR图像。然后,我们还将我们的方法应用于YouTube的LR原始视频帧。

5.2.1 Datasets and Implementation Details

在本实验中,我们通过对现有图像进行下采样来获得成对的合成数据。考虑到真实的SR应用程序,所有成对数据都属于与未成对数据不同的域(请参阅补充资料中的更多讨论)。根据[32],我们从ImageNet(称为ImageNet3K)中随机选择3k图像,并使用不同的降级方法获得LR图像,包括Nearest和BD。请注意,我们的实验中未使用ImageNet3K HR图像。

对于SR任务在视频上,我们收集3k个原始视频帧作为未配对数据来训练模型。在本节中,我们使用我们的DRNS模型来评估建议的自适应算法,并将结果模型称为DRN Adapt。更多详情请参见补充资料

5.2.2 Comparison on Unpaired Synthetic Data

为了评估非成对数据的自适应性能,我们比较了我们的DRN自适应和合成数据的基线方法。我们在表2中报告了8×超分辨率的不同方法的PSRN和SSIM值。从表2可以看出,DRN Adapt在所有数据集上始终优于受监督的方法。对于基于CycleGAN的方法,CinCGAN实现了比监督学习方法更好的性能,但由于前面提到的固有限制,仍然无法超越我们的方法。请注意,对于最近的LR数据,我们还报告了最近内核的恢复结果,这与降级方法相同。我们的方法也在这个基线上产生了很大的性能改进。这些结果证明了所提出的自适应算法的有效性。

5.2.3 Comparison on Unpaired Real-world Data

我们将我们的方法应用于Y ouTube原始视频帧,由于现实场景中的复杂和未知退化,这更具挑战性。因为

没有地面实况HR图像,我们只提供视觉对比。从图6中可以看出,从三个受监督基线(即EDSR、DBPN和RCAN)生成的帧包含许多马赛克。对于CinCGAN,由于对未成对LR和HR图像之间的数据差异敏感,SR结果失真并包含大量噪声。相比之下,我们的DRN Adapt可产生具有更清晰纹理的视觉前景良好的图像。由于页数限制,我们在补充资料中添加了更多的视觉效果。

6. Further Experiments

6.1.双回归方案的消融研究

我们对双回归方案进行了消融研究,并在表3中报告了4×SR的结果。与基线相比,配备双重回归方案的模型在所有数据集上都有更好的性能。这些结果表明,双重回归方案可以通过引入额外的约束来减少映射函数的空间,从而改善HR图像的重建。我们还评估了双重回归方案对其他模型的影响,例如基于SRResNet[24]的网络(详见补充资料)。

6.2. Effect of λ on DRN

我们进行了一个实验来研究等式中的超参数λ的影响。(1). 从表4中可以看出,当我们将λ从0.001增加到0.1时,双重回归损失逐渐变得更加重要,并提供了有力的监督。如果我们进一步将λ增加到1或10,双重回归损失项将压倒原始原始回归损失,并影响最终性能。为了在原始回归和对偶回归之间取得良好的平衡,我们在实践中设置λ=0.1

6.3. Effect of ρ on Adaptation Algorithm

我们研究了ρ对所提出的自适应算法的影响。我们比较了改变未配对数据ρ的数据比率时的性能,并在图7中显示了相应的训练曲线ρ ∈ {30%,50%,70%},所得模型的性能优于基线模型,即ρ=0%。在实践中,我们设置ρ=30%以获得最佳性能。我们还比较了具有和不具有预训练参数的模型。从图7中可以看出,从头训练的模型产生的结果稍差,但在没有自适应的情况下仍优于基线模型。这些结果证明了所提出的自适应算法的有效性。

7. Conclusion

......

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值