最快可达 SwinIR 4倍的高效超分网络 | ELAN

在这里插入图片描述
(本文首发于"我爱计算机视觉",如需转载等事宜请联系我爱计算机视觉
作者单位: 香港理工大学、OPPO
论文链接:https://arxiv.org/abs/2203.06697
代码链接:https://github.com/xindongzhang/ELAN

看点

Transformer通过利用自注意(self-attention, SA)进行特征提取,取得了令人印象深刻的结果。然而SA的计算是非常昂贵的,并且一些操作对于SR任务来说可能是冗余的。本文提出了一种高效的远程注意网络(ELAN),它首先采用shift卷积在保持与1x1卷积相当的复杂度情况下有效的提取图像局部结构信息,然后提出了一种分组多尺度自注意(GMSA)模块,它使用不同的窗口大小在非重叠的特征组上计算SA。通过将两个shift卷积与GMSA模块级联,构建高效的远程注意块(ELAB),并通过共享注意机制进一步加速该模块的运行,极限情况下能比SwinIR快四倍!

方法

Overview

ELAN的架构如下图所示,它由三部分组成:浅层特征提取、深度特征提取和HR图像重建。其中浅层特征提取由一个3x3卷积组成,深度特征提取由堆叠的ELAB和一个残差连接组成,重建模块由一个3 × 3卷积和一个PixelShuffle操作组成,损失采用 L 1 L_1 L1范式。
在这里插入图片描述

ELAB

如下图所示,ELAB由局部特征提取和GMSA组成,上述都配备了残差连接。
在这里插入图片描述

局部特征提取: 中间特征 X X X以往多采用多层感知或两个1 × 1卷积的方法,但这只有1 × 1的感受野。本文采用中间有ReLU激活函数的两个shift卷积来扩大感受野以更有效地提取局部特征。shift卷积由shift运算和1 × 1卷积组成。具体的说,shift卷积将输入特征平均分为五组,前四组特征沿不同的空间维度进行位移,最后一组不变,然后用1x1卷积就可以利用位移后的相邻元素的信息。这没有引入额外的可学习参数并保持了与1x1卷积相似的复杂度,同时使感受野由1变成了3。
GMSA: 给定一个CxHxW的特征图,使用窗口大小为M的自注意的计算复杂度为 2 M 2 H W C 2M^2HWC 2M2HWC。GMSA首先将输入特征分成K组,然后利用 M k , k ∈ [ 1 , K ] M_k,k\in[1,K] Mk,k[1,K]的窗口大小计算第K组特征的SA。假设通道平均分割且,单个组的计算复杂度为 2 / k ( M k 2 H W C ) 2/k(M_k^2HWC) 2/k(Mk2HWC),总复杂度为 2 / k ( ∑ k M k 2 ) H W C 2/k(\sum_kM_k^2)HWC 2/k(kMk2)HWC,然后将不同组的SA输出通过1x1卷积聚合。
加速SA(ASA): 首先,摒弃了以往Transformer中广泛使用的层归一化(LN),因为LN将SA的计算分割成许多元素级操作,这不利于高效推理。本文采用批归一化(BN)来稳定训练过程,在推理阶段BN可以合并到卷积运算中,不会造成额外的计算成本。其次,SwinIR中的SA使用三个独立的1 × 1卷积θ、φ和g计算,本文设置θ = φ,计算对称高斯空间中的SA,这可以节省一个1 × 1卷积但不牺牲SR的性能,如上图(e)所示。
共享注意得分图: 上述SA的一次前向传递包含两个1 × 1卷积和四个reshape操作。由于SR任务中的特征尺寸较大,reshape耗时较长。为此,本文在相邻的SA模块之间共享注意得分图。如下图b所示,第i个SA模块的注意得分图,直接被后面n个SA模块重复使用。这种方法在n个SA时减少2n次reshape和n个1×1卷积。实验发现,使用少量的n(如1或2)时只会导致SR性能的轻微下降,但节省了大量的计算资源。
在这里插入图片描述
移位窗口: 本文改进了SwinIR的移位窗口机制,如上图c所示。首先对特征进行对角线方向的循环偏移,并计算偏移后的GMSA。然后将结果反向循环偏移。利用半窗口大小的循环偏移可以对特征映射进行新的划分,并在之前的GMSA模块中引入相邻非重叠窗口之间的连接。虽然循环偏移将边界上的一些像素点转移到较远的区域,但这些像素点在SR任务中只占小部分,所以循环偏移对SR的影响很小。利用循环移位机制就可以去掉SwinIR中所采用的掩蔽策略和相对位置编码,使得网络更加整洁高效。

实验

消融实验

移位窗口机制,推断速度从247ms降低到177ms的同时性能几乎保持不变。用ASA来替代SA,在不损失PSNR/SSIM性能的情况下,推理延迟从177ms降低到66ms。通过采用GMSA对长期依赖模型进行有效建模,PSNR和SSIM指数在所有5个数据集上都得到了显著改善。这表明GMSA比SwinIR小窗口下的SA更有效。共享注意机制,可以在性能下降很小的情况下,进一步加快光的推断时间。
在这里插入图片描述

定量评估

轻量级SR模型对比
Transformer的方法通过利用图像的自相似性,在PSNR/SSIM指标上优于许多基于cnn的方法。但是因为在SwinIR中SA是一个沉重的计算负担,SwinIR-light的延迟比CNN的方法要慢×10以上。得益于高效的远程注意力设计,ELAN-light模型不仅在所有五个数据集上获得了较好的指标,而且比SwinIR-light快了×4.5。同时参数和计算复杂度也比SwinIR-light要小。
在这里插入图片描述在这里插入图片描述
经典SR模型对比
ELAN在所有数据集上都获得了更好的PSNR和SSIM,推理速度×2。
在这里插入图片描述在这里插入图片描述

定性评估在这里插入图片描述
  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值