北大&港大 CVPR 力作 | ESRT: 集轻量高效于一体的单图超分网络

本文首发于微信公众号 CVHub,不得以任何形式转载到其它平台,仅供学习交流,违者必究!

Title: Transformer for Single Image Super-Resolution

PDF: https://arxiv.org/pdf/2108.11084

Code: https://github.com/luissen/ESRT

导读

基于深度学习的单张图像超分辨率(Single image super-resolutionSISR)近年来得到飞速发展。然而,以往的研究大都集中在构建更复杂的网络以提升超分性能。随着 ViT 的崛起,Transformer 在计算机视觉各个子领域遍地开花,其中便包括了图像超分。众所周知,视觉 Transformer 的一大核心痛点便是高计算成本和昂贵的显存开销。因此,本文提出了一种新颖的高效超分辨率 Transformer 模型——ESRT,其有机地结合了轻量级 CNN 和 Transformer 骨干(Lightweight CNN Backbone, LCB & Lightweight Transformer Backbone,LTB)。其中:

  • LCB可以动态调整特征图的大小,以低计算成本提取深层特征;
  • LTB则由一系列高效 Transformer 模块组成并结合高效多头注意力来进一步降低显存占用;

最后,与基于原始的 ViT 网络相比,所提方法仅需占用少量内存(4,191M vs. 16,057M),但能够获得更优的性能。代码已开源,欢迎大家尝试!

动机

相比于传统方法,深度卷积神经网络在SISR领域取得了突破性的进展,尽管这类方法已经取得了出色的性能,但由于高计算成本和内存占用使其应用于实际生产应用中变得困难。为了解决这个问题,许多循环网络和轻量级网络被提出,如DRCNSRRFNIMDNIDNCARNASSLNMAFFSRNRFDN。这些模型都致力于构建更高效更轻量的网络结构,但这类方法减少了网络容量势必导致性能不佳

为了解决这个问题,作者引入了Transformer架构以捕获图像的长远距离依赖(如上图1所示,相似的 patch 有助于其它 patch 的图像恢复),来模拟 SISR 任务中的纹理结构等详细信息。如前所述,Transformer 模型在计算机视觉任务中已经有了一些应用,不过这些方法通常占用大量 GPU 内存,这极大地限制了它们的灵活性和应用场景。此外这些方法不能直接应用于 SISR,因为图像恢复任务通常将较大分辨率的图像作为输入,这对显存占用是一个极大的挑战。下面我们具体介绍下这个方法。

方法

Framework

上图展示了 ESRT 的网络架构图,其主要包含四个部分:

  • Shallow Feature Extraction (SFE)
  • Lightweight CNN Backbone (LCB)
  • Lightweight Transformer Backbone (LTB)
  • Image Reconstruction (IR)

下面让我们整体描述下这整个工作流程。首先,假设 I L R I_{LR} ILR 作为网络的输入, I S R I_{SR} ISR 作为网络的输出。首先,我们从输入 I L R I_{LR} ILR 中提取浅层特征。这一步可以通过一个卷积层实现,记作:

其中, f s f_s fs 代表浅层特征提取层, F 0 F_0 F0 则是提取的浅层特征。

接下来,我们将 F 0 F_0 F0 作为送入 LCB,它是由多个 High Preserving Blocks, HPBs 模块所组成的。通过 HPBs 处理 F 0 F_0 F0 以得到中间特征 F n F_n Fn

其中 ζn 表示第 n 个 HPB 的映射, F n F_n Fn 表示第 n 个 HPB 的输出。随后,将所有 HPB 的输出拼接起来喂入 LTB (一个由多个 Efficient Transformers, ETs 组成的模块),并使用 ETs 来融合这些中间特征:

其中 F d F_d Fd 是 LTB 的输出, ϕ \phi ϕ 表示 ETs 的操作。最后,我们将再 F d F_d Fd F 0 F_0 F0 同时送入重建模块以获得 SR图像 ISR:

其中, f f f f p f_p fp 分别代表卷积层和 Pixel-Shuffle 层。

至此,ESRT 通过这四个部分以低计算成本实现了对输入图像的高清晰度超分辨率重建。

Lightweight CNN Backbone

LCB 提出的主要动机是提前从输入低分辨率图像中提取出潜在的超分辨率特征,从而使得模型具备超分辨率的初始能力。从主框架图可以看出,LCB 主要由一系列高保真块(HPB)构成,通过降低特征映射的分辨率来减少计算成本,并利用自适应残差特征块和高频过滤模块来保留初始的细节信息。通过这种方式,可以在减少计算成本的同时提高超分辨率模型的性能。下面是 HPB 模块的具体结构设计:

可以看出,其包含两个主要的组件即保留高频滤波模块(HFM)和自适应残差特征块 (ARFB)。

High-frequency Filtering Module

HFM是一种新的可微分高频信息估计方法,其很好的规避了传统傅里叶变换难以嵌入卷积神经网络中的问题,以实现从低分辨率图像中估计高频信息。

Adaptive Residual Feature Block

ResNetVDSR启发,作者提出了一种基于残差映射的基础特征提取块ARFB,它由两个残差单元和卷积层组成,用于减少和恢复特征图的通道数,并使用自适应权重的残差比例(RSA)来动态调整残差路径和Identify路径的重要性。相比于固定的残差比例,RSA可以改善梯度流,并自动调整输入特征图的残差特征映射的内容。

Lightweight Transformer Backbone

在超分辨率图像重建任务中,相似的图像块可以被用作参考图像,从而恢复当前图像块的纹理细节,因此Transformer很适合干这个工作。然而,高昂的计算成本和显存要求进一步限制了它的应用。LTB的设计理念便是希望能够以较低的计算成本捕捉图像中类似局部区域的长期依赖性,其主要由一系列的高效 Transformer 模块组成。

ViT类似,ETs 也只使用了 Transformer 中的 encoder 结构,其主要工作是对原始 Transformer 结构的多头注意力组件进行了高效化的设计,如下所示:

总的来说,ETs可以很好地提高网络效率和降低对显存的占用。

实验

结论

本文结合 Transformer 和 CNN 建模长、短距离依赖的优势,提出了一种新颖的用于单图超分的高效超分网络——ESRT,其基于轻量级 CNN 骨干提取深层特征并利用 Transformer 骨干对图像中相似局部区域之间的长远依赖性进行建模。大量实验表明,ESRT 在模型性能和计算成本之间取得了最佳平衡,表现优异!

写在最后

如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!

同时欢迎添加小编微信: cv_huber,备注CSDN,加入官方学术|技术|招聘交流群,一起探讨更多有趣的话题!

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
CVPR2021是计算机视觉和模式识别领域的一个重要国际会议,轻量网络是其中一个重要的研究方向。随着移动设备的普及和计算能力的提升,人们对于在资源有限的设备上进行高效率的计算的需求越来越大。因此,轻量网络的研究成为了当前的热点之一。 CVPR2021上展示了许多针对轻量网络的研究成果。这些研究工作主要围绕如何在计算资源有限的条件下减小模型的计算量和参数量。具体而言,主要包括以下几个方面的内容: 首先,研究者们提出了一些新的网络结构设计方法,以减小模型的计算量。这些方法通过剪枝、裁剪、分组卷积等方式对模型进行优化,减小模型的计算复杂度,同时保持模型的性能。 其次,研究者们还提出了一些模型压缩和加速的方法,以减小模型的参数量。这些方法包括量化、蒸馏、低秩分解等技术,通过对模型参数进行优化,从而减小模型的存储需求和计算复杂度。 此外,研究者们还针对特定任务提出了一些轻量网络的解决方案。例如,在目标检测和图像分割等任务上,他们设计了一些轻量化的网络结构,以提供高效率的计算和准确的结果。 总的来说,CVPR2021上的轻量网络研究中在如何降低计算和存储开销的问题上。这些研究成果有力地推动了计算机视觉和模式识别领域在移动设备和边缘计算等资源有限环境中的应用和发展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CVHub

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值