13、佐治亚理工学院、中国小米公司共同提出:Swift Parameter-free Attention 人类注意力模型上的璀璨皇冠

本文由美国佐治亚理工学院小米公司2023.11.21日,共同在Electrical Engineering and Systems Science 》期刊上发表,佐治亚学院也称乔治亚学院,与麻省理工、加州理工学院并称美国三大理工学院,被誉为美国“公立常春藤”,全球高校QS-2023第12位,THE-2023榜单第11位。目前全网没有对该模型进行解读的,老样子,我先来,占个原创版权。

两家单位共同提出一种由对称激活函数+残差连接无参数自注意力模型(不讲五的,没有参数,让后面注意力模型咋玩),论文如下:

论文链接:[2311.12770] Swift Parameter-free Attention Network for Efficient Super-Resolution (arxiv.org)

1.Abstract

单图像超分辨率(SISR)是低级计算机视觉中的一个关键任务,旨在从低分辨率版本重构出高分辨率图像。传统的注意力机制在显著提高SISR性能的同时,往往导致复杂的网络结构和大量的参数,从而导致推理速度较慢和模型尺寸较大。

为了应对这个问题,作者提出了一种名为快速参数自注意力网络(SPAN)的SISR模型,它是一种既高效又平衡参数数量、推理速度和图像质量的SISR模型。SPAN采用了一种新颖的参数自注意力机制,该机制利用对称激活函数和残差连接来增强高贡献信息并抑制冗余信息。作者的理论分析证明了这种设计在实现注意力机制目的方面的有效性。

作者在多个基准测试上评估SPAN,结果表明它在图像质量和推理速度方面都超过了现有的高效超分辨率模型,实现了显著的质量-速度权衡。这使得SPAN非常适合实际应用,尤其是在资源受限的场景中。

值得注意的是,作者的模型在NTIRE 2023高效超分辨率挑战中取得了27.09 dB的最佳峰值信噪比(PSNR),作者的团队在测试运行时减少了7.08毫秒。

2.Introduction

单图像超分辨率(SISR)是低级计算机视觉中一个已经确立的任务,其目的是从单个低分辨率图像重构出高分辨率图像。这个任务在各个领域都有广泛的应用,例如在图像质量的提升方面。深度学习的出现带来了这个领域的显著进步。超分辨率任务的最新进展主要得益于注意力机制。

许多最新的超分辨率网络都采用了注意力机制,甚至使用了更大的视觉Transformer(ViTs)作为模型架构。这些网络通过注意力图强调关键特征和补丁之间的长程依赖关系,捕获更广泛的上下文信息以确保细节的连贯性和边缘纹理的准确性。

然而,注意力机制的计算需求,包括复杂的网络结构和大量的额外参数,导致了如大型模型大小和缓慢推理速度等挑战。这些挑战限制了这些模型的适用性,阻碍了它们在高效、高速计算场景中的应用,如资源受限的移动设备上的SISR任务。

许多现有的高效超分辨率(ESR)技术已经在提高模型效率方面取得了一定的成功。一些模型主要关注减少模型FLOPs和参数,通过诸如分组卷积和深度可分卷积等方法实现。然而,仅仅减少FLOPs或参数并不总是能够显著提高模型的推理速度,同时也有可能降低模型准确性。其他模型通过共享特征信息和缩减非注意力分支来减少模型参数大小。

但是,这些模型在其复杂计算结构中仍然包含许多参数,导致运行时间较长。为了确保快速的推理速度,保持简单的网络拓扑结构至关重要。然而,传统的注意力机制通常会导致更复杂的网络结构。

为了应对这个问题,作者提出了一种参数自注意力机制,并从理论上证明了作者快速无参数自注意力网络(SPAN)可以通过对称激活函数和残差连接实现增强高贡献信息并抑制冗余信息的目标。在SPAN中,作者通过将提取的特征通过对称激活函数在原点周围进行传递来构建一个无参数自注意力机制,从而直接计算注意力图。

这种注意力机制专注于无需额外参数学习的信息丰富区域,允许从浅层到深层快速有效地提取特征。对称激活函数和残差连接的设计有助于解决无参数注意力模块的信息损失问题。网络结构的简单性确保了操作速度,解决了传统注意力机制所面临的挑战。

总之,作者的主要贡献如下:

  1. 设计了一种新颖的参数自注意力机制,该机制利用对称激活函数和残差连接来增强高贡献信息并抑制冗余信息,从而简化网络结构并提高推理速度,同时不牺牲准确性。

  2. 提出了快速无参数自注意力网络(SPAN),它利用参数自注意力机制在保持低模型复杂度和参数数量的同时,实现快速有效的特征提取从浅层到深层。

  3. 通过理论分析和实验验证,作者证明了SPAN在单图像超分辨率任务中的有效性和优越性,证明了在资源受限的场景中,它具有实际应用价值和潜在的应用价值。

3.Related Work

3.1 Efficient Super Resolution on Image

大多数现有的ESR模型关注于减少模型参数或FLOPs以提高效率。SRCNN使用深度卷积神经网络(CNN)实现单图像超分辨率,实现端到端映射,优化所有层。DRCN提出了一种具有最多16层递归卷积的网络,以增强超分辨率性能,通过创新技术和实现对以前方法的显著改进,克服训练挑战。

LatticeNet引入了一种使用格子滤波器银行将Lattice Block组合的Residual Blocks,通过这种新颖的组合方法展示了改进的性能。CARN在残差网络中实现了一种级联机制,以创建一个准确且轻量级的模型。IMDN是一种轻量级和准确的单图像SR模型。

它提取了层次特征,并使用对比感知通道注意力选择性地聚合它们。RFDN通过使用更轻量和灵活的特征蒸馏连接和浅层残差块,改进了IMDN,实现了更好的超分辨率性能和较低的模型复杂度。然而,仅仅最小化参数和FLOPs并不一定导致更好的模型效率,尤其是在推理过程中。需要开发更注重推理速度而不是仅仅减少参数或FLOPs的超分辨率模型。

为了解决这个问题,RLFN根据RFDN增强了模型紧凑性并加速了推理,同时不牺牲超分辨率恢复质量。他们分析了中间特征的属性,并发现浅层特征对基于PSNR(峰值信噪比)的模型至关重要。基于这一点,他们提出了一种改进的特征提取器,有效地捕获边缘和细节。

此外,引入了一种多阶段热身训练策略,以加快模型收敛并提高超分辨率恢复精度。Omni引入了聚合网络以实现高效轻量图像超分辨率。它利用Omni自注意力来融合空间和通道自注意力。此外,引入了一种多尺度特征提取方法,以实现具有低计算成本的高质量恢复。

3.2 Attention Mechanism

对于ESR任务,轻量级注意力机制的应用对于在提高模型性能的同时不显著增加复杂性起着重要作用。在现代视觉模型中,注意力机制的关键作用在于其动态重新加权特征,这使得计算资源能够针对输入的最突出部分进行分配,从而提高各种任务的有效性和效率。

基于注意力的超分辨率网络通常需要较大的感受野来捕捉局部和全局信息,从而提高超分辨率性能。然而,使用参数化的注意力图可能会降低推理速度。与基于注意力的超分辨率网络不同,高效的超分辨率(SR)网络应在确保快速推理速度的同时保持性能。

作者观察到,注意力图可以不需要额外的训练和参数就可以生成,但仍可对模型的性能产生积极影响。这种轻量级注意力方法的关键在于在受限制的模型预算内最大化超分辨率网络的表达能力。通过结合这些原则,作者可以为超分辨率模型开发一种快速有效的注意力机制。

作者提出的参数自注意力机制利用现有的卷积层来增强高贡献信息并抑制冗余信息,从而消除了需要额外的参数密集过程的需要。这不仅简化了模型,还增强了其弱局部化的能力,这对于提高超分辨率技术是至关重要的特征。

4. Method

在本节中,作者首先介绍本文方法:基于自注意力机制和基于SPAB(Swift Parameter-free Attention Block)的自注意力机制构建的用于超分辨率的无参数SPAN。接下来,作者将对SPAB进行理论分析,证明无参数自注意力机制在超分辨率任务中的有效性,尤其是在对称激活函数和残差连接的条件下。

如图2所示,SPAN由6个连续的SPAB组成,每个SPAB通过三个带有C'通道、H' * W' 尺寸核的卷积层逐步提取越来越高级的特征(在作者的模型中,作者选择H'=W'=3)。提取的特征Hi随后通过SPAB的输入进行残差连接,形成该块的预注意力特征图Ui。卷积层提取的特征通过关于原点的对称激活函数得到注意力图Vi。

特征图和注意力图按元素相乘得到SPAB块的最终输出:

然后,SPAB块可以表示为:

这种卷积层确保每个SPAB具有与输入相同的通道数。整个SPAN神经网络可以描述为:

最后,这个特征图经过像素重排模块生成一个具有C个通道和尺寸rH * rW的高分辨率图像,其中r表示超分辨率因子。

4.1 Parameter-Free Attention Mechanism

在SPAB中,作者直接通过一个关于原点对称的激活函数从卷积层提取的高层次特征信息获得注意力图。因为在计算注意力图的分支中,除了激活函数之外没有可训练参数的模块,所以作者的自注意力机制是无参数的。

在以前的超分辨率工作中,虽然注意力图可以通过允许模型选择性地关注特征的最相关部分来提高模型准确性,但计算注意力图引入了额外的参数,这降低了模型的计算速度。

为了提高作者模型的计算效率,作者从[7, 13, 45, 53]中提出的无参数注意力机制中获得灵感,并在作者的自注意力机制中,通过一个无参数激活函数直接获得注意力图。有趣的是,这些用于注意的边缘和纹理信息可以通过在训练过程中学习的卷积核直接检测到,同时,它们也是网络需要提取的信息,以完成超分辨率任务。

因此,作者可以直接根据卷积层输出值的幅度确定注意力区域,并直接从卷积层的输出中无参数地获得注意力图。

这在图3中使用作者的注意力后特征图的视觉化中也有所体现(与图3(c)相比),在经过训练后,从卷积层输出直接计算的注意力图倾向于使特征图在具有复杂纹理和边界的区域相对较高。

作者可以通过以下过程从理论上证明作者的无参数自注意力机制:请注意,由于作者在第3.3节分析了残差连接的作用,因此在本文中为了简单起见,作者在第3.3节中去除了残差连接,并在第3.3节中添加了残差连接进行分析。

如果没有注意力,模型在训练过程中更新第i个SPAB的梯度可以表示为:

其中L表示训练过程中的损失,II表示反向传播算法中链式梯度的一部分的产品。而添加自注意力机制后,梯度为:

4.2 Design Consideration

直接计算注意力图而不需要额外的参数的想法,导致了作者神经网络的两个设计考虑:计算注意力图的激活函数的选择和使用残差连接。

对称激活函数 正如在第3.1节中提到的,作者选择关于原点对称的激活函数来计算注意力图。有两个主要原因:

  • 首先,因为在通过结构相关的卷积层提取的特征图中,例如梯度核,值的符号总是表示方向,而绝对值表示特征数量。为了直接基于特征数量生成注意力图,它必须大致保持:

  • 其次,根据等式4,作者的自注意力方法会放大信息丰富的区域的梯度并抑制信息贫乏区域的梯度。为了确保这些效果,必须确保:

方程6中的第二个不等式是由于常见的激活函数是递增函数的事实。根据5和6,可以推导出需要是一个关于原点对称的奇函数。

此外,使用像Sigmoid这样的非奇函数作为激活函数,会完全过滤出具有较大绝对值但负数特征的信息,如图3所示。在图3中,将H1和V1进行比较,可以观察到在H1中,一些具有较大绝对特征值的区域在V1中变得更暗,这代表了由于Sigmoid函数过滤出负值而导致的幅度减小。得到的特征图,使用这种类型的注意力图,无法强调特征,导致与初始特征相比,其表示相当模糊。

另一方面,注意力机制增强了每个层提取的高级特征,这可能导致在高级特征不太突出的区域内,信息损失很大。与不使用注意力的结果(图4f)相比,使用注意力可能会导致后面SPAB块(图4e)过度信息损失的问题,最终导致超分辨率结果的准确性降低(表3)。作者采用残差连接来解决这个问题。

通过残差连接,作者使用SPAB层输入的低级特征来补偿特征图生成过程中过度损失的信息,并在最终的SPAB(方程1)中,被替换为。这将导致在训练过程中,方程4中的关于的梯度变为:

这样,由于存在中,对于训练好的模型,注意力机制关注的区域不仅由当前级别的信息决定,还由前一个SPAB输出的低级信息决定。这有助于缓解过度关注高级特征造成的严重信息损失。同时,它不会像带有注意力的但没有残差连接的块那样遭受信息损失,确保低级信息得到保留。详细的结果数字显示在表3中。

5. Experiments

5.1 Experimental Setup

数据集和指标 按照已有的技术[30, 32],作者的模型在DF2K数据集上进行训练,该数据集是由DIV2K和Flickr2K数据集组合而成的,总共有3450张(800 + 2650)高质量图像。作者采用标准的协议通过参考高分辨率图像的双立方降采样来生成LR图像。作者在4个不同的基准数据集上评估作者的模型:Set5,Set14,B100,Urban100和Manga109,YCbCr空间的Y通道的PSNR和SSIM用于SR任务上的性能评估。

实现细节 在训练过程中,作者使用了6个具有48通道特征图的SPAB模块。作者在推理阶段采用了重参数化方法(REP)来提高效率。在每个训练批次中,随机裁剪64个HR RGB块,尺寸为256*256,并进行随机翻转和旋转。学习率初始化为5*0.0001,并在每2*1000000次迭代后进行一半。该网络总共进行10000000次迭代,通过使用Adam优化器最小化L1损失函数进行训练。在加载训练好的权重后,作者进行了两次相同的训练设置以获得最佳结果。

5.2 Quantitative Results

在本研究中,作者在各种基准测试上对SPAN和SPAN-S模型进行2x和4x上放大,并将其详细测试结果与当前最先进的有效超分辨率模型进行比较。有关详细结果,请参阅表1。

在多个基准测试中,与其它模型相比,SPAN和SPAN-S在PSNR和SSIM方面表现优越,尤其是在推理时间上。与RLFN和RLFN-S相比,SPAN和SPAN-S在推理速度和PSNR和SSIM的性能指标方面具有显著优势。

如图1所示,通过图像质量、推理时间和模型大小的关系进行可视化,作者可以观察到,与其它在可比较的推理速度下具有相当参数数量的模型相比,SPAN在保持相当高的PSNR的同时,不仅性能更好,而且运行速度更快。因此,RLFN和RLFN-S在质量、参数数量和推理速度之间达到了最佳平衡。

5.3 Activation Function

在第3.2节中,作者讨论了在参数自注意力机制的背景下,使用关于原点对称的激活函数,其作用和原理。作者尝试并提出了几种不同的关于原点对称的激活函数,并比较了它们对注意力机制的ESR性能的影响。

如表2所示,作者进行了不同激活函数的比较实验。为了确保模型速度,作者最终选择作为激活函数,虽然它简单但有效,适合作者SPAN模型中的注意力机制。所提出的可学习激活函数作为SPAN模型的扩展,并成为激活函数讨论的焦点,有可能表现出更高的性能。然而,使用可学习激活函数时,观察到速度通常会随着使用而降低。

5.4 Ablation Study

在消融实验中,作者统一地对具有48个通道的模型进行x4缩放因子实验。

残差连接 正如在第3节中讨论的那样,作者在非参数注意力机制下改进了作者的模型性能,通过在每个SPAB模块中集成残差连接来减轻过度信息损失。

为了证明这些模块内残差连接的有效性,作者从作者的模型中删除了每个SPAB模块中的残差连接,并与作者的基线模型进行了比较。没有残差连接的模型被称为SPAN_notes。该模型所有实验设置与作者的SPAN模型保持一致。

作者在相同的设置下彻底训练了这两个模型,并在四个基准数据集上评估了它们的性能:Set5,Set14,BSD100和Urban100。表3呈现了结果,突出了残差连接对模型性能的影响。值得注意的是,这些连接提高了图像质量,同时保持了高推理速度。

注意力机制 为了评估作者注意力机制的基础,该机制利用参数自注意力过程进行信息反馈,作者从SPAB模块内的注意力组成部分中移除了激活函数和点积操作。

这种方法有效地消除了参数自注意力机制,使得模块输出直接是原始输入的残差连接。在保持相同的实验设置下,作者将这个修改后的模型称为SPAN_noatt,并将其与原始SPAN模型在各种维度上进行比较。表3展示了SPAN相对于SPAN_noatt的增强性能,验证了作者的无参数注意力机制在增强网络能力和突出特征图中的高频特征方面的有效性。

组合模块 同时,作者对所提出的模块设计进行了广泛的验证。将残差连接与参数自注意力机制相结合的SPAB模块实现了高效的直接增强。

为了评估这一点,作者在实验中移除了这两个关键组件,同时保持其他实验设置不变。表3的结果表明,作者提出的包含残差连接的注意力模块在超分辨率任务中显著提高了图像质量,同时保持了处理速度。这些发现有力地证明了作者的模块设计在增强超分辨率处理结果方面的有效性和实用性。

重参数化 正如表4所示,作者实现了重参数化技术(rep)[9],以提高推理阶段的有效性。

训练设置 正如表5所示,再训练一次模型可以提高其性能,但更多的训练轮次将不会带来显著的改进。

5.5 SPAN for NTIRE 2023 challenge

作者的团队在NTIRE 2023高效超分辨率挑战中取得了最佳PSNR(27.09 dB),同时将测试运行时间减少到7.08毫秒。与上述模型结构和训练策略略有不同。所提出的模型具有4个SPAB,其中特征通道数量设置为48。在每个训练批次中,作者裁剪64个HR RGB块,尺寸为256*256,并对其进行随机翻转和旋转。在训练阶段,作者使用NGswin作为教师模型来提高恢复性能。

学习率最初设置为*0.0001,并在每2*100000次迭代时减半。整个网络总共进行了10000000次迭代,通过使用Adam优化器最小化L1损失函数进行训练。

作者在加载训练好的权重后,重复上述训练设置四次。然后,使用L1和L2损失函数进行微调,初始学习率为0.00001,进行5*1000000次迭代,HR块大小为512。作者对四个模型进行微调,同时使用L1和L2损失,并采用64和128的批量大小。最后,作者将这四个模型集成在一起,以获得最终的模型。

与在AIM 2020高效超分辨率挑战中获得第一名的RFDN方法相比,作者的方法在所有指标上取得了显著提高,同时实现了最快的运行时间。

6. Conclusion

在本文中,作者提出了快速无参数自注意力网络(SPAN),一种高效的单图像超分辨率模型,解决了传统注意力机制在网络结构复杂性、缓慢推理速度和大型模型大小方面所面临的问题。

SPAN使用无参数注意力机制来增强重要信息并减少冗余。其简单结构、对称激活函数和残差连接确保了高图像质量和快速推理速度。在多个基准测试上的广泛实验表明,SPAN在性能和推理速度方面均优于现有的高效超分辨率模型,实现了显著的质量-速度权衡。

这一特点使得SPAN非常适合实际应用,尤其是在资源受限的场景,如移动设备。未来的研究可能会将参数自注意力机制应用于其他计算机视觉任务,并进一步优化网络以获得更高的效率。

7. 模型和代码连接:

https://github.com/hongyuanyu/SPAN.

8. 布莱克学者失踪事件

2023.11.26日,也就是上周日,我们在客厅吃着火锅唱着歌,吃到下午三点半,猛然发现Mr.Cat-Black学者好久没出来玩球了,三人找了房间好几遍,边边角角的,也顺着窗户楼下找了几圈(以为布莱克学者掉楼下了),但是无果,忍痛写好寻猫启示,刚要出门张贴楼下,布莱克学者自己出来了,对,它藏饿了,自己出来吃猫粮。。。

狗蛋坏照

  • 28
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

是馒头阿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值