Learning Texture Transformer Network for Image Super-Resolution阅读笔记

Learning Texture Transformer Network for Image Super-Resolution阅读笔记

Abstract

图像超分辨率,目的从低分辨率图像中恢复出逼真的纹理。现有方法忽略了使用注意力机制来恢复高分辨率纹理,因此,我们提出一个新的图像超分辨率纹理转换网络,其中LR和Ref图像被作为transformer中的queries和keys。

TTSR由四个紧密相关的模块组成,这些模块针对图像生成任务进行了优化,包括一个由DNN设计的可学习纹理提取器、一个相关性嵌入模块、一个用于纹理转移的硬注意模块和一个用于纹理合成的软注意模块。

这种设计鼓励跨LR和Ref图像的联合特征学习,其中可以通过注意力发现深层特征对应,从而可以转移精确的纹理特征。

提出的texture transformer可以以跨尺度的方式进一步堆叠,能够从不同的level进行纹理恢复。

1 Introduction

图像超分辨率的研究通常基于两种范式,即单图像超分辨率(SISR)和基于参考的图像超分辨率(RefSR)。

由于高分辨率纹理在退化过程中被过度破坏,无法恢复,所以传统的SISR易导致模糊效果。

RefSR,Ref图像获得高分辨率纹理。

3 Approach

Texture Transformer Network for Image Super-Resolution(TTSR)

3.1 Texture Transformer

texture transformer包括四部分,可学习的纹理提取器模块(Learnable Texture Extractor)、相关性嵌入模块(Relevance Embedding)、硬注意力模块(Hard Attention)、软注意力模块(Soft Attention)。以下分别针对上述四个模块展开介绍。

在这里插入图片描述

Learnable Texture Extractor 可学习的特征提取器

在基于参考的图像超分辨率(RefSR)任务中,参考图像(Ref image)的纹理提取是必不可少的,准确和适当的纹理信息将有助于参考图像的生成。我们设计了一个可学习的纹理提取器,它的参数在端到端的训练过程中更新,而不是像VGG那样使用预训练的分类模型提取语义特征。这种设计鼓励LR和Ref图像上进行联合特征学习,可以捕获更精确的纹理特征。

该纹理提取器是一个浅层的卷积神经网络

Relevance Embedding 相关性嵌入

相关性嵌入旨在通过估计Q和K之间的相似性来嵌入LR图像(低分辨率图像)和Ref图像之间的相关性。

具体的,该模块将 Q 和 K 分别像卷积计算一样提取出特征块,然后以内积的方式计算 Q 和 K 中的特征块两两之间的相关性。内积越大的地方代表两个特征块之间的相关性越强,可迁移的高频纹理信息越多。反之,内积越小的地方代表两个特征块之间的相关性越弱,可迁移的高频纹理信息越少。

我们通过归一化内积计算这两个补丁之间的相关性 r i , j r_{i,j} ri,j

在这里插入图片描述

相关性嵌入模块会输出一个硬注意力图和一个软注意力图。其中,硬注意力图记录了对 Q 中的每一个特征块,K 中对应的最相关的特征块的位置;软注意力图记录了这个最相关的特征块的具体相关性,即内积大小。这两个图分别会应用到硬注意力模块和软注意力模块中。

Hard-Attention 硬注意力模块。在硬注意力模块中,我们利用硬注意力图中所记录的位置,从 V 中迁移对应位置的特征块,进而组合成一个迁移纹理特征图 T。T 的每个位置包含了参考图像中最相似的位置的高频纹理特征。T 随后会与骨干网络中的特征进行通道级联,并通过一个卷积层得到融合的特征。

Soft-Attention 软注意力模块。在软注意力模块中,上述融合的特征会与软注意力图进行对应位置的点乘。基于这样的设计,相关性强的纹理信息能够赋予相对更大的权重;相关性弱的纹理信息,能够因小权重得到抑制。因此,软注意力模块能够使得迁移过来的高频纹理特征得到更准确的利用。

在合成过程中,相关的纹理转移应该被增强,而不太相关的纹理转移应该被消除。

3.2 Cross-Scale Feature Integration

在这里插入图片描述

3.3 Loss Function

总损失:

在这里插入图片描述

Reconstruction loss

在这里插入图片描述

(C, H, W)是HR的大小,使用 L 1 L_1 L1损失,表现较 L 2 L_2 L2损失好。

Adversarial loss 对抗损失

里我们采用WGAN-GP [8],它提出了一种惩罚梯度范数的方法来代替权重裁剪,从而得到更稳定的训练和更好的性能。

[8] Improved training of wasserstein gans. In NeurIPS, pages 5767–5777, 2017.

在这里插入图片描述

Percepture loss

感知损失的核心思想是增强预测图像和目标图像在特征空间上的相似性

在这里插入图片描述

3.4 Implementation Details

可学习纹理特征提取器(learnable texture extractor:包含5个卷积层和2个池化层。以三种不同的比例输出纹理特征。

为了减少时间和GPU内存的消耗,相关性嵌入仅应用于最小尺度,并进一步传播到其他尺度。

对于鉴别器,我们采用SRNTT [41]中使用的相同网络,并移除所有BN层。

训练时,通过随机水平和垂直反转,旋转90°、180°和270°进行训练集扩充。每个mini-batch 包含9个 40 × 40 40\times40 40×40的LR patches和9个 160 × 160 160\times160 160×160的HR和Ref patches。

L r e c 、 L a d v 、 L p e r L_{rec}、L_{adv}、L_{per} LrecLadvLper的权重系数分别是1, 1e-3, 1e-2

β = 0.9 、 β = 0.99 \beta=0.9、\beta=0.99 β=0.9β=0.99 Adam optimizer与1e-8和1e-4的学习率一起使用。2个epoch的预热,这2个epoch中只是用 L r e c L_{rec} Lrec,然后再使用所有算是train50个epoch。

4 Experiments

5 Conclusion

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值