项目地址:https://github.com/ZZUTK/SRNTT
摘要
受到图像风格迁移的启发,本文将RefSR问题重新定义为自然纹理迁移的问题。
本文的主要贡献是在自然空间中的多级匹配。使得模型可以从语义相关的参考图像块中获得更多的信息。
并且提出了基准数据集,基准数据集中含有与LR图像相似程度不同的参考图像。
1. Introduction
近年来,感知损失和对抗损失带来了视觉上的提升,但是这些方法容易产生虚假的纹理和伪像。
RefSR通过使用参考图像中的丰富细节来补偿LR图像中的细节丢失。
【8, 3, 7, 33, 39, 34, 27, 41】这些都是RefSR的方法,但是这些方法假设参考图像与LR具有相似的内容,并且对齐,否则这些方法会比SISR方法的结果更差。
但是,在我们的方法中,不需要参考图像与LR对齐或者有相似的内容,我们只迁移相对应的语义信息。
理想状态下,RefSR的方法应该在有较好的ref图像的情况下比SISR效果更好,而在没有ref图像或者ref图像与lr图像不相关的情况下产生与SISR相当的结果。
受到图像风格迁移的启发,提出了SRNTT。该方法自适应的从ref图像中迁移纹理到SR图像。
本文的效果如下图所示:
最左边的上下两幅均为参考图像,L表示下方的参考图像(与LR纹理不相关),U表示上方的参考图像(与LR纹理相关)。可以看出,即使SRNTT(L)也产生了与SRGAN相当的结果,而CrossNet(L)则从纹理不相关的ref图像中产生了错误的纹理。
本文的主要贡献:
- 提出了更一般性的RefSR,打破了现有RefSR需要对齐的操作
- 提出了SRNTT,对于RefSR问题,我们提出了端到端深度模型SRNTT,以通过多尺度神经纹理传递恢复以任何给定参考为条件的LR图像。
- 建立了标准数据集CUFED52.
2、Related Works
2.1. Deep Learning based SISR
文献【20】展示通过VGG来增加感知损失的效果。文献【24】通过对抗损失来最小化SR和HR的视觉差异。文献【30】基于风格迁移,引入了纹理匹配损失。
SRNTT与【24,30】密切相关,其中结合了与感知相关的约束(即感知损失和对抗损失)以恢复视觉上更合理的SR图像。
2.2. Reference-based Super-Resolution
通常,参考图像需要具有与LR图像相似的纹理和/或内容结构。
文献【41】采用光流来对齐输入与参考图像,但是光流在长距离对应上受到限制,所以无法处理明显不对齐的参考图像。
3、Approach
SRNTT的整体结构如图所示:
核心思想为从ref中寻找匹配的纹理,然后通过多尺度融合的方式转换到SR图像中。
多尺度纹理转换同时考虑LR和Ref之间的语义(高层)和纹理(低层)的相似性,从而迁移相关纹理同时抑制无关的纹理。
3.1 Feature Swapping
首次在ref图像上搜索可以用于LR的局部相似纹理。
首先,对LR进行上采样。同时,对ref依次通过bicubic进行下采样和上采样,来获取与LR图像具有相同频带的参考图像。
这里为什么要对Ref依次进行下采样和上采样呢?所谓的频带是否真的存在呢
与CrossNet相比的最大优势为,我们在LR和Ref之间匹配局部的图像块,而不是全局变换。
由于LR和Ref之间存在颜色和亮度等的差异,所以我们在特征空间来匹配二者的相似性。
使用内积来衡量相似性:
其中表示从特征图中采样的第i个patch。表示LR中的第i个patch与Ref中的第j个patch之间的相似度。
可以通过卷积或者相关操作来进行相似度的计算:
3.2. Neural Texture Transfer
如图2所示,将多个交换的纹理特征图合并到对应于不同比例的不同特征层的基础深度生成网络中。
对于每一个尺度,一个swap后的特征图Ml通过上述的方法可以得到。
第l个层的输出为:
最终经过L层之后的输出为:
与以往的SISR问题不同,本文将SR与Ref之间difference也考虑进来,并定义了纹理损失:TTSR也是借鉴了这里,但TTSR说是自己提出来的
3.3. Training Objective
采用的损失为重建损失,感知损失,对抗损失和纹理损失。
对抗损失同样用的是WGAN-GP:
3.4. Implementation Details
使用VGG19作为特征feature。
TTSR使用的方法和上面一毛一样,但是TTSR训练了50个epoch,而SRNTT只训练了20个。
5. Experimental Results
我们通过bicubic(X4)的方式从HR来获得低分辨率的图像。
5.1. Quantitative Evaluation
为了公平的比较,所有learning-based方法均在CUFED5数据集上进行训练,并且在CUFED5,Sun80和Urban100数据集上进行测试。
实验的对比结果如表1所示。值得注意的是,表中展示了SRNTT-l2在有参考图像和无参考图像时候的结果。
其中,SRNTT-l2(SISR)表示将LR输入作为相应的参考。
视觉效果的对比:
对于Urban100,将LR图像作为Ref。
5.2. Qualitative Evaluation by User Study
给用户评价:(TTSR模仿之)
5.3. Ablation Studies
5.3.1 Effect of reference similarity
LR与Ref之间的相似度是RefSR方法的关键因素。本节探索CrossNet和SRNTT之间的在不同相似程度上的表现。结果如表2所示:
表中,HR (warp)表示对原始HR图像进行随机平移、旋转和缩放后得到的参考图像。L1到L4表示参考图像4种不同相似程度。LR表示将LR图像作为参考图像。
对比SRNTT和SRNTT-l2,可以看出在HR作为参考图像时,SRNTT明显优于SRNTT-l2,这展示了当高度相似的参考图像给出时,纹理损失可以有效的恢复更好的纹理。
将特征swap用光流来替代,并且用SRNTT-flow来表示。可以看到,在HR作为参考图像时,与SRNTT相比,SRNTT-flow展现了巨大的退化。这也反映出光流法的局限性。
同时,可以看到,当将LR作为参考图像时,SRNTT-flow要好于SRNTT,这是因为此时参考图像与LR输入十分一致,此时光流很容易将Ref与LR对齐。
5.3.2 Layers for feature swapping
表3展示了使用多尺度相比于单一尺度之间的效果。
5.3.3 Effect of texture loss
本文中使用加权纹理损失是与其他SR方法的一个重要不同点。
可以从图7中看出,与加了纹理损失的对比,不加纹理损失的模型的视觉效果明显下降。而且,在CUFED5数据集上的测试表明,没有纹理损失时,PSNR为25.25,包含纹理损失时候PSNR为25.61
6. Conclusion
本文利用了更通用的RefSR问题,其中参考可以是任意图像。 我们提出了SRNTT,这是一种端到端的网络结构,该结构从参考执行多层自适应纹理传输,以恢复SR图像中更合理的纹理。 进行定量和定性实验以证明SRNTT的有效性和适应性。 此外,构建了一个新的数据集CUFED5以促进RefSR方法的评估。 它还为将来的RefSR研究提供了基准。