简介
本文介绍了一种用于图像超分辨的Transformer,与之前的一些视觉Transformer模型相比更加轻量化,计算量更小,并占用更小的显存
Lightweight CNN Backbone(LCB)
LCB的作用是提前生成潜在的超分辨特征,使模型获得初始的超分辨能力
High Preserving Block(HPB)
HPB用来降低生成特征的分辨率
HPB中含有High-frequency Filtering Module(HFM)和Adaptive Feature Block(ARFB)
High-frequency Filtering Module(HFM)
HFM的作用是从LR空间中估计图像的高频信息
Adaptive Residual Feature Block(ARFB)
ARFB是一个基础的特征提取模块
ARFB中含有两个Residual Units(RU),两个卷积
RU由Reduction 和 Expansion两个部分组成。
-
Reduction会将特征图的通道减少一半
-
Expansion会将其恢复
residual scaling with adaptive weights(RSA)用来动态调整两个前向分支(残差和主干)的权重。
Lightweight Transformer Backbone(LTB)
与之前的各种视觉Transformer相比,LTB可以以较低的计算代价捕获图像中相似的局部区域的长程依赖关系。
-
图像特征在ET前后的处理
由于展开操作自动反应了每个patch的位置,所以不用进行可学习的位置嵌入,在展开后,这些patch的特征F_p将作为ET的输入,ET的输出与输入形状相同,可以使用Flod操作将输出恢复为特征图。
Efficient Transformer(ET)
ET只使用了Transformer的编码器结构
ET由Efficient Multi-Head Attention和MLP两部分组成,并且在每个部分后都使用了Layer Norm。
具体的计算细节建议看原文
一些实验结果