本文提出了一种称为混合注意力 Transformer(HAT) 的新型网络架构, 它融合了通道注意力和窗口自注意力机制的长处, 提高了模型处理全局和局部信息的能力。 此外, 研究人员还引入了一个跨窗口的注意力模块, 用以强化邻近窗口特征间的互动。 通过在训练阶段实行同任务预训练, 进一步提升了模型性能。 经过一系列实验, 这个方法在性能上显著优于现有最先进技术, 达到了 1dB 以上的提高。
论文:[2205.04437] Activating More Pixels in Image Super-Resolution Transformer (arxiv.org)里面附有代码。
摘要
基于变换的方法在图像超分辨率等低级视觉任务中表现出令人印象深刻的性能。然而,通过归因分析,我们发现这些网络只能利用有限的空间范围的输入信息。这意味着Transformer的潜力在现有网络中仍未得到充分利用。为了激活更多的输入像素以获得更好的重建,我们提出了一种新的混合注意转换器(HAT)。它结合了渠道关注和基于窗口的自关注两种方案,利用了两者能够利用全局统计和较强的局部拟合能力的互补优势。此外,为了更好地聚合交叉窗口信息,我们引入了重叠交叉关注模块,以增强相邻窗口特征之间的交互作用。在训练阶段,我们还采用了同任务预训练策略来挖掘模型进一步改进的潜力。大量的实验证明了所提出模块的有效性,并且我们进一步扩大了模型,以证明该任务的性能可以大大提高。我们的整体方法明显优于最先进的方法超过1dB。
一、介绍
图1所示。本文提出的HAT与最先进的方法SwinIR[31]和EDT[27]在PSNR(dB)上的性能比较。HAT- l是HAT的一个更大的变体。我们的方法比目前的方法高出0.3dB ~ 1.2dB。
单幅图像超分辨率(SR)是计算机视觉和图像处理领域的经典问题。它旨在从给定的低分辨率输入中重建高分辨率图像。由于深度学习已经成功地应用于SR任务[10],基于卷积神经网络(CNN)的许多方法被提出[8,11,12,24,29,32,68,70],并且在过去几年中几乎占据了该领域的主导地位。最近,由于在自然语言处理方面的成功,Transformer[53]引起了计算机视觉界的关注。在高级视觉任务上取得快速进展后[14,39,54],基于变压器的方法也被开发用于低水平视觉任务[6,57,65],以及SR[27,31]。特别是,一个新设计的网络,SwinIR[31],得到本任务的突破性改进。
尽管取得了成功,“为什么Transformer比CNN好”仍然是一个谜。一种直观的解释是,Transformer网络可以受益于自我注意机制,并利用远程信息。因此,我们采用归因分析方法LAM[15]来检查SwinIR中用于重建的利用信息涉及的范围。有趣的是,我们发现在超分辨率方面,SwinIR并不比基于cnn的方法(例如RCAN[68])利用更多的输入像素,如图2所示。
此外,尽管平均而言,SwinIR获得了更高的定量性能,但由于利用的信息范围有限,在某些样本中,它的结果不如RCAN。这些现象说明Transformer具有较强的建模本地信息的能力,但其利用信息的范围需要扩大。此外,我们还发现在SwinIR的中间特征中会出现阻塞伪影,如图3所示。结果表明,移位窗口机制不能很好地实现跨窗口信息交互。
为了解决上述局限性并进一步开发变压器在SR中的潜力,我们提出了一种混合注意力变压器,即HAT。我们的HAT结合了渠道关注和自关注两种方案,利用了渠道关注的全局信息利用能力和自关注的强大代表能力。