这篇文章网络结构ESRT( Efficient Super-Resolution Transformer)还是蛮复杂的,是一个CNN和Transformer结合的结构。文章提出了一个高效SRTransformer结构,是一个轻量级的Transformer。作者考虑到图像超分中一张图像内相似的细节部分可以作为参考补充,(类似于基于参考图像Ref的超分),于是引入了Transformer,可以在图像中建模一种长期依赖关系。而ViT这些方法计算量太大,太占内存,于是提出了这个轻量版的Transformer结构(ET)ET只使用了transformer中的encoder
,并且作者还使用了feature spilt
将QKV划分为小组分别计算注意力最后拼接。文章还在CNN部分提出了一个高频滤波器模块HFM
,保留高频信息进行特征提取。
文章主要重点在速度(高效), 效果也是很好的,作者在实验部分提到把ET结构嫁接到RCAN中也能提高RCAN的效果,证明了ET的有效性。
原文链接:ESRT:Transformer for Single Image Super-Resolution
源码地址: https://github.com/luissen/ESRT.
ESRT:Transformer for Single Image Super-Resolution[CVPR 2022]
Abstract
随着深度学习的发展,单幅图像超分辨率(SISR)技术取得了长足的进步。近来越来越多的研究人员开始探索Transformer在计算机视觉任务中的应用。然而,Vision Transformer巨大的计算成本和高GPU内存占用问题阻碍了其脚步。在本文中,提出了一种用于SISR的新型高效超分辨率Transformer(ESRT)。ESRT是一种混合模型,由轻型CNN主干网(LCB)
和轻型Transformer主干网(LTB)
组成。其中,LCB可以动态调整特征图的大小,以较低的计算成本提取深层特征。LTB由一系列高效Transformer(ET)组成,使用专门设计的高效多头注意(EMHA),它占用的GPU内存很小。大量实验表明,ESRT以较低的计算成本获得了有竞争力的结果。与原始Transformer占用16057M GPU内存相比,ESRT仅占用4191M GPU内存。
1 Introduction
因为在同一张图像中相似的图像patch可以用作彼此的参考图像,以便使用参考patch来恢复特定patch的纹理细节。受此启发,作者将Transformer引入到SISR任务中,因为Transformer具有很强的特征表达能力,可以在图像中建模这种长期依赖关系。目标是探索在轻量级SISR任务中使用Transformer的可行性。近来有一些Transformer已经被提出用于计算机视觉任务。然而,这些方法往往占用大量GPU内存,这极大地限制了它们的灵活性和应用场景。
为了解决上述问题,提出了一种高效的超分辨率Transformer(ESRT),以增强SISR网络捕获长距离上下文依赖的能力,同时显著降低GPU的内存成本。
ESRT是一种混合架构,使用“CNN+Transformer”模式来处理小型SR数据集。ESRT可分为两部分:轻型CNN主干网(LCB)和轻型Transformer主干网(LTB)。
- 对于LCB,更多地考虑减少中间层特征图的形状,并保持较深的网络深度,以确保较大的网络容量。受高通滤波器的启发,设计了一个
高频滤波模块(HFM)
来捕捉图像的纹理细节。在HFM的内,又提出了一种高保留块(HPB)
,通过大小变化有效地提取潜在特征。在特征提取方面,提出了一种功能强大的自适应残差特征块(ARFB)
作为基本特征提取单元,能够自适应调整残差路径和路径的权重。 - 在LTB中,提出了一种
高效Transformer(ET)
,它使用专门设计的高效多头注意(EMHA)机制来降低GPU内存消耗。且只考虑局部区域中图像块之间的关系,因为SR图像中的像素通常与其相邻像素相关。尽管它是一个局部区域,但它比常规卷积要宽得多,可以提取更多有用的上下文信息。因此,ESRT可以有效地学习相似局部块之间的关系,使超分辨区域具有更多的参考。
主要贡献如下:
- 提出了一种轻量级的CNN主干(LCB),它使用高保留块(HPB)来动态调整特征图的大小,以较低的计算成本提取深层特征
- 提出了一种轻量级Transformer主干(LTB),利用专门设计的高效Transformer(ET)和高效多头注意(EMHA)机制,捕捉图像中类似patch之间的长期依赖关系
- 提出了一种称为高效SR Transformer(ESRT)的新模型,以有效地增强图像中相似patch的特征表达能力和长期依赖性,以较低的计算成本获得更好的性能。
2 Efficient Super-Resolution Transformer
高效超分辨率Transformer(ESRT)主要由四部分组成:浅层特征提取、轻型CNN主干(LCB)、轻型Transformer主干(LTB)和图像重建。
浅层特征提取:
一个3×3卷积层
轻型CNN主干(LCB):
由多个高保留块High Preserving Blocks(HPBs)组成(实验中为3个), ζ n ζ^n ζn 是第n个HPB的映射,第n个HPB的输出为 F n F_n Fn,公式:
轻型Transformer主干(LTB):
每个HPB的输出拼接后送进LTB融合特征,LTB由多个Efficient Transformers (ETs)组成(实验中为1个), ϕ \phi ϕ代表的是ET的功能, F d F_d Fd是LTB的输出,公式如下。
图像重建:
最后 F d F_d Fd和 F 0 F_0 F0同时馈入重建模块,以获得重建图像 I S R I_{SR} ISR。 f f f和 f p f_p fp分别代表卷积层和亚像素卷积层,获得 I S R I_{SR} ISR的公式如下:
ESRT的整体结构比较常规,深层特征提取联合使用了CNN和Transformer。LCB内使用了比较复杂的结构,推理速度比较慢,而ET中仅使用了一个Transformer的encoder结构并不会带入太大的计算量。后面实验也证明了加入ET能给网络带来增益。
2.1 Lightweight CNN Backbone (LCB)
轻量级CNN主干网(LCB)的作用是提前提取潜在的图像特征,使模型具有超分辨率的初始能力。LCB主要由一系列高保留块(HPB)
组成。
HPB:
以往的SR网络通常在处理过程中保持feature map的空间分辨率不变。在本文中为了降低计算成本,提出了一种新的高保留块(HPB)来降低处理特征的分辨率。然而,特征图尺寸的减小往往会导致图像细节的丢失,从而导致视觉上不自然的重建图像。为了解决这个问题,在HPB中,作者创造性地提出了高频滤波模块(HFM)
和自适应残差特征块(ARFB)
。
先介绍HPB的整体结:由HFM和ARFB组成。再详细剖析HFM和ARFB的结构。
整体结构: 前一个HPB的输出 F n − 1 F_{n-1} Fn−1,作为当前HPB的输入。先经过一个ARFB
用于提取 F n − 1 F_{n-1} Fn−1作为HFM的输入功能。然后,使用HFM
计算特征的高频信息(标记为 P h i g h P_{high} Phigh)。在获得 P h i g h P_{high} Phigh后,减小了特征映射的大小,以减少计算成本和特征冗余。下采样
特征图表示为 f n − 1 ′ f'_{n−1} fn−1′、对于 f n − 1 ′ f'