FSSR : Frequency Separation for Real-World Super-Resolution

下载地址:Frequency Separation for Real-World Super-Resolution

Abstract

大多数关于图像超分辨率(SR)的最新文献都假设训练数据以成对的低分辨率(LR)和高分辨率(HR)图像的形式存在,或者使用降阶算子的知识(通常是双三次降尺度)。虽然提出的方法在标准基准上表现良好,但在现实环境中往往无法产生令人信服的结果。这是因为现实世界中的图像可能会受到诸如传感器噪声之类的损坏,而双三次降尺度会严重改变传感器噪声。因此,模型在训练过程中永远看不到真实世界的图像,这限制了它们的泛化能力。此外,在同一个源域中收集成对的LR和HR图像很麻烦。

为了解决这个问题,我们提出DSGAN在双三次缩小的图像中引入自然图像特征。它可以在无监督的情况下对HR图像进行训练,从而生成与原始图像具有相同特征的LR图像。然后,我们使用生成的数据来训练SR模型,这大大提高了它在真实图像上的性能。此外,我们建议在训练过程中分离低图像频率和高图像频率,并对它们进行不同的处理。由于低频是通过下采样操作保留的,我们只需要对抗性训练来修改高频。 这个想法被应用到我们的DSGAN模型和SR模型中。通过定量和定性分析,我们在几个实验中证明了该方法的有效性。我们的解决方案是2019年ICCV上关于真实世界SR的AIM挑战的赢家。

1. Introduction

图像超分辨率(SR)的目标是提高图像的分辨率。随着卷积神经网络(CNN)的出现,该领域在过去几年中受到了越来越多的关注。现代技术现在能够在干净的基准数据集上生成照片逼真的结果。

然而,大多数最先进的模型[39,36,25]在现实世界的图像上表现不佳,可能会受到传感器噪音等损坏。这些特征通常会导致超分辨率图像中出现奇怪的伪影,如图1所示:

在这里插入图片描述

原因在于这些SR模型的训练方式。它们大多依赖于监督训练,这需要高分辨率(HR)和相应的低分辨率(LR)图像对。由于很难收集完全相同场景的HR和LR图像,LR图像通常由HR图像生成。在大多数情况下,这是通过简单地对HR图像应用双三次缩小来实现的。虽然这种方法很简单,并且在干净的环境中提供了良好的效果,但它也带来了一个重大问题:双三次缩小会改变图像特征。例如,它减少了LR图像中的损坏,使它们“更干净”。因此,该模型仅针对下采样算子改变的输入LR图像进行训练。当模型应用于非双三次缩小的图像时,这会导致性能显著下降

由于许多现实世界中的图像存在可见的损坏,最先进的SR方法在实践中并不是很有用。当前智能手机都配备了硬件,可以部署强大的神经网络。因此,稳健的SR方法对于改善智能手机摄像头拍摄的图像质量非常有用。这项工作的重点是在这样的现实环境中提高SR模型的性能

为了实现这一点,我们的目标是生成与我们想要SR的图像具有相同特征的LR图像。这些图像允许SR模型使用在应用过程中遇到的类似的数据进行训练。

首先我们bicubic下采样HR得到LR。在第二步中,我们改变这些LR图像的特征以匹配源图像的特征。这是通过使用GAN设置来实现的[10],它允许我们训练神经网络,使我们的LR图像与源图像无法区分。然而训练GAN非常困难,需要稳定以收敛到期望的结果。与[12,13]类似,我们通过组合多种损失函数来实现这种稳定:一种是颜色损失,迫使网络保持原始图像的低频;另一种是对抗性损失,使用鉴别器产生与源图像中的频率相似的高频。

最后,我们还添加了一个感知损失,将输出推向与输入图像相似的解决方案。因此,它确保由GAN产生的高频仍然与由颜色损失监控的低频相匹配。该设置基于以下理念:在对图像进行下采样的过程中,去除高频,而保留低频。因此,生成的LR图像缺少原始图像中的高频特征。另一方面,低图像频率(如颜色)的保留程度取决于缩小因子。通过将对抗性损失限制在高频,我们大大降低了任务的复杂性。这有助于鉴别器将注意力集中在相关的图像特征上,而不影响其他特征。因此,与标准GAN相比,我们的设置更稳定,收敛更快,产生更好的结果

此外,我们还应用了分离图像低频和高频的思想来训练SR模型。我们使用了如上所述的类似策略:使用像素级损耗来稳定低频,并仅在高频上应用对抗性损耗。由于这将像素损失和对抗性损失分开,因此简化了鉴别器的任务。我们还从理论上解释了为什么只使用GAN来训练高频,而对低频使用简单的像素级损耗是有意义的。

我们在人工和自然腐蚀的多个数据集上评估我们的方法。为了展示我们实现的有效性,我们使用了DF2K数据集,它是DIV2K[1,33]和Flickr2K[25]数据集的组合。由于这个数据集包含干净的图像,它允许我们引入人工腐蚀,并通过向两个图像添加相同的腐蚀来创建HR和LR图像对。我们对传感器噪声和压缩伪影进行了实验。在这两种情况下,我们都通过定量和定性评估证明了我们方法的有效性。

此外,我们在用iphone3拍摄的DPED真实数据集[12]上测试了我们的方法,在这种情况下,我们只提供定性评估,因为没有GT可用。最后,我们还参加了与2019年ICCV上的AIM研讨会相关的关于真实世界超分辨率的AIM 2019挑战[27]。我们的方法在源域和目标域两个方面都获得了第一名。我们的方法都不是专门为特定类型的数据设计的。它们也可以应用于具有我们在实验中使用的特征以外的其他特征的图像。

2. Related Work

在SRCNN工作的基础上,提出了几项改进[18,17,32,21]。因此,与标准CNN相比,EDSR[25]等具有残差层的更深网络产生更好的结果。通过使用密集连接的残差块[40,36]的不同变体作为模型的构建块,进行了额外的改进。这些模块允许进一步增加网络的深度,从而产生非常强大的模型。

前面提到的大多数方法都是基于优化SR图像和GT图像之间的距离。虽然该策略在图像保真度指标(如PSNR)方面实现了最先进的性能,但生成的图像通常是模糊的。这是因为人类对视觉相似性与这种像素级错误的相关性感知有限。因此,最近的SR方法基于损失函数和训练方法,更适合生成视觉上令人愉悦的图像

[8,9]表明,从预先训练的网络中提取的高级特征可用于设计感知损失函数。[15]中使用了这种损失函数来提高超分辨率图像的视觉质量。SRGAN模型[22]通过额外的对抗性损失进行训练,将输出推送到多种自然图像中,从而生成逼真的照片效果。有几项研究提出了进一步改进的方法,这些方法侧重于知觉相似性[29,36,39]。最近推出的RankSRGAN[39]使用了一种方法,在不可区分的感知度量上训练SR模型。我们的实验基于ESRGAN[36],他是2018年PIRM知觉超分辨率挑战赛的冠军[2]。它对SRGAN模型进行了一些改进,从而实现了最先进的感知性能

前面提到的所有模型都使用通过双三次降尺度生成的HR/LR图像对进行训练。因此,这些模型在现实场景中表现不佳。解决这个问题的一种方法是直接收集配对数据,这在最近的工作[4,5]中得到了探讨。然而这些方法依赖于复杂的硬件,需要为每个摄像机源收集新的数据。其他方法试图使SR更健壮,根据测试图像进行裁剪。[24]提出将预先训练的SR模型微调到测试图像。

ZSSR[30]是一个轻量级的CNN,只通过使用测试图像进行训练,该测试图像将网络的注意力集中在特定于图像的细节上。然而,这两种方法仍然依赖于训练期间已知的下采样操作。此外为每个测试图像训练网络会导致非常缓慢的预测

[37]提出一个模型,学习从原始输入到干净输入空间的映射,然后应用超分辨率。他们使用一个复杂的框架,有两个周期的一致性损失,这增加了训练时间。它们的初始清理步骤提高了模型在损坏图像上的性能,但也增加了模型的复杂性。相反,我们的方法主要侧重于生成训练数据。我们只对鉴别器和损失函数做了一些小的修改,这不会给模型带来更大的复杂性。与我们的工作类似,一些新方法人工生成Paired Data

Kimet等人[16]提出了一个基于自动编码器的框架,以共同学习下采样和上采样。虽然他们的超分辨率方法在模型下采样的图像上表现良好,但它不适用于未知的下采样操作。Bulatet等人[3]探索了一种学习下采样操作的方法。然而,他们只关注人脸,而不是一般的超分辨率问题,这使得任务变得容易得多。相比之下,我们对图片的内容不做任何假设

3. Proposed Method

3.1. Real-World Super-Resolution

最先进的SR模型依赖于成对HR和LR图像上神经网络的完全监督训练。虽然收集图像不是一项困难的任务,但从两个不同的来源获得成对的图像既困难又麻烦。因此,SR场主要依赖于使用双三次降尺度来生成图像对。虽然这种方法有助于开发有前途的SR模型,但它限制了对真实世界图像的推广,因为它可以极大地改变某些图像特征,如传感器噪声。图2显示了这种下采样操作如何影响真实图像的示例。

在这里插入图片描述
在我们的分析中,假设得到了一组具有相似特征(例如相同的传感器噪声分布)的源图像。然后可以定义HR,最后LR是通过对HR图像进行下采样生成的

y是HR,x是用y双三次插值得到的LR,保持x的内容不变,

在这里插入图片描述
上图是可视化下采样设置的结构。B表示Bicubic,紫色区域显示高通和低通滤波器。红色三角形表示损失函数,橙色区域表示神经网络

3.2. Downsampling with Domain Translation

给定某些domain中的HR图像,该模块可以在源domain中生成接近该domain真实的LR图像

双三次插值得到的 x b x_b xb处于一个错误的domain,我们使用生成器将 x b x_b xb转换到domain Z中,即 x d = G d ( x b ) x_d=G_d(x_b) xd=Gd(xb),判别器用于判断图像是合成的LR图像 x b x_b xb, 还是真实的LR图像 z z z

Network Architectures

G由两个卷积层和中间的ReLU组成的残差块,为了让引入的真实图像特征不改变全局图像内容,只是作局部调整,使用了patch-based 判别器,它的结果返回一个二维数据,指出图像的某一块是真是假,最后结果取平均

3.3. Frequency Separation

如3.2所述,我们使用标准的GAN设置将原始LR图像转换到源domain Z。我们不只是想要这个源domain中的任何图像,而是最接近原始 x b x_b xb的图像

实现这一点的一种方法是使用多个损失函数。通过引入感知和像素损失,可以限制生成器生成的解决方案。不幸的是,这样的损失函数很难平衡,因为我们需要生成器的输出 x d x_d xd保持接近输入 x b x_b xb,同时引入源domain的图像特征。我们必须权衡感知和像素损失,两个目标都无法完美实现。

下采样处理移除高图像频率,并将低频信息保持在一定的像素数内。这会导致高频特征丢失,而颜色和上下文等低频信息仍然存在。由于低频信息被保留,我们只需要映射X中的高频信息到Z即可。因此我们建议只在高频信号 x H , d x_{H,d} xH,d上使用判别器,并将低频信号 x L , d x_{L,d} xL,d保留为原始信号,这就使判别器更容易聚集在相关的高频特征,降低了问题的复杂度

我们使用简单的线性滤波器分离图像的低频和高频,我们定义一个低通滤波器 W L , d W_{L,d} WL,d,低频和高频可以通过卷积得到

在这里插入图片描述
其中, δ − W L , d \delta-W_{L,d} δWL,d可以理解为高通滤波器, x H , d x_{H,d} xH,d z z z都要输入判别器D

Loss Functions

包括三种损失:颜色损失、感知损失和纹理损失

颜色损失主要应用与图像的低频信息上,通过一个低频滤波器 W L , d W_{L,d} WL,d,让 x d x_d xd x b x_b xb在在低频信息上的保持一致,以保留图像的内容。颜色损失定义如下:
在这里插入图片描述
m是batch_size

我们仅在 x d x_d xd上应用GAN损失, L t e x , d L_{tex,d} Ltex,d是用于捕获高频信息的

在这里插入图片描述
为确保高低频信息匹配,还引入了感知损失 L p e r , d L_{per,d} Lper,d
在这里插入图片描述

3.4. Frequency Separation for Super-Resolution

我们还将频率分离的想法直接应用于ESRGAN[36],该方法不限于此SR模型,并且可以轻松地适用于其他方法,模型如图4所示:

在这里插入图片描述
y按照系数r进行下采样,假设x是y下采样的一个版本,记为 y L y_L yL,保存的高频信息则是 y H = y − y L y_H=y-y_L yH=yyL,没必要考虑 x x x y y y映射中生成的内容和虚假细节

与x到y的映射不同,x到 y L y_L yL的映射是一对一的,可以直接重建。对于重建 y H y_H yH,我们只能依赖上下文信息,因为它包含所有通过下采样和消除混叠过程去除的高频信息,因此x到 y L y_L yL的映射比x到 y H y_H yH的映射更简单

和3.3一样,使用一个低通滤波器和一个高通滤波器来分离低和高图像频率。给定x只有一个 y L y_L yL,由于图像的颜色主要是在低频中定义的,我们称这种损失为颜色损失
在这里插入图片描述

另一方面,G(x)的高频具有多个真值,无法通过基于像素的损耗来学习。我们仅通过在鉴别器前面添加高通滤波器,在这些高频上使用对抗性损耗。这大大降低了任务的复杂性,因为鉴别器不必处理低频

为了确保GAN损失产生的高频细节与低频匹配,感知损耗应用于整个输出。这就有了ESRGAN生成器的以下自适应损耗函数:
在这里插入图片描述
这种损失函数简化了鉴别器的任务,使模型能够产生更接近目标分布的输出。

4. Experiments

在这里插入图片描述

Same Domain Super-Resolution (SDSR)

z z z直接用 y y y代替的时候,是Same Domain超分

Target Domain Super-Resolution (TDSR)

如果源域中的图像存在诸如传感器噪声之类的损坏,通常需要在SR过程中去除这些损坏。原图bicubic下采样两倍作为HR,然后用一张新的LR,也就是 z z z提供domain信息

参考:[论文速度] 超分系列:基于频率分离的图像超分辨率算法 两篇 ICCVW 2019 和 CVPRW 2020

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 油水分离的前沿技术包括: 1. 超声波技术:通过高频声波在油水混合物中产生微小空泡,使油和水分离。 2. 动力学分离技术:通过油水混合物的物理性质,如密度、流动性等差异,将油和水分离。 3. 光学分离技术:利用油和水在光学特性上的差异,如光吸收、折射率等,将油和水分离。 4. 膜技术:通过膜的选择性透过性,将油和水分离。 5. 化学吸附技术:通过合适的化学吸附剂,吸附油,使油和水分离。 这些技术具有不同的优缺点,根据实际应用情况,应选择合适的技术。 ### 回答2: 油水分离的前沿技术是指在处理含油废水时使用的最新科技和方法。由于油污水的治理一直是一个全球性的环境问题,因此研究人员一直在努力开发更有效的方法来分离油水,以减少对环境的污染。 一种前沿技术是利用纳米材料进行油水分离。纳米材料具有大比表面积和特殊的化学和物理性质,可以吸附或分解油污染物。这种技术通过将纳米材料应用于分离设备中,可以高效地分离油水混合物。纳米材料的使用还可以提高设备的储油容量和改善处理效率。 另一种前沿技术是利用膜分离技术进行油水分离。膜分离技术利用特殊的膜材料将油和水分离开来。这种技术相对传统的方法具有更高的分离效率和选择性。同时,膜分离技术还可以实现连续操作和减少处理成本。 此外,一种新兴的技术是利用电化学方法进行油水分离。该方法通过电场效应使油和水分离开来。这种技术具有高效、环保和可控性的优势,可以有效地处理不同种类的油污染物。 总之,油水分离的前沿技术为解决油污染问题提供了新的方法和可能性。这些技术在提高分离效率、降低处理成本和减少环境污染方面具有重要意义,对于推动可持续发展和保护环境具有重要作用。 ### 回答3: 油水分离的前沿技术是一种用于将油和水分离的先进技术。油水分离是一项重要的环境工程技术,用于处理由油污染引起的水体和废水。过去,常用的油水分离方法包括重力分离、漂浮、离心分离等,但这些方法存在一些局限性。 随着科技的进步,油水分离的前沿技术不断涌现。一个前沿技术是电化学油水分离法。该技术利用电解作用将水中的油脂离子化,然后利用电极的特殊性质将油脂吸附并分离出来。这种方法具有高效、节能、环保等优点,可以有效地从废水中分离出油脂。 另一个前沿技术是膜分离技术。膜分离技术利用特殊的薄膜材料,如聚合物膜、陶瓷膜等,通过渗透、过滤和离子交换等机制实现油水分离。这种技术具有高效、节能、可持续等特点,可以有效地去除水中的油污染物。 此外,纳米技术也被应用于油水分离的前沿技术中。纳米材料具有巨大的比表面积和特殊的物理化学性质,可以用于油水分离膜、吸附材料等的制备。通过纳米材料的使用,油水分离的效率和效果能够得到显著提高。 总之,油水分离的前沿技术不断涌现,为处理油污染带来了新的可能性。电化学油水分离、膜分离技术和纳米技术等都是重要的前沿技术,将为环境保护和资源开发提供有力支持。随着科学技术的发展,我们可以期待更多创新的油水分离技术的出现。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

bugcoder-9905

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值