Activating More Pixels in Image Super-Resolution Transformer

本文提出混合注意力Transformer(HAT),融合通道注意力与窗口自注意力,激活更多输入像素以提高图像超分辨率性能。通过引入重叠交叉注意力模块增强邻近窗口特征交互,同任务预训练策略进一步提升模型性能。实验显示HAT在PSNR上显著优于现有技术。
摘要由CSDN通过智能技术生成

文提出了一种称为混合注意力 Transformer(HAT) 的新型网络架构, 它融合了通道注意力和窗口自注意力机制的长处, 提高了模型处理全局和局部信息的能力。 此外, 研究人员还引入了一个跨窗口的注意力模块, 用以强化邻近窗口特征间的互动。 通过在训练阶段实行同任务预训练, 进一步提升了模型性能。 经过一系列实验, 这个方法在性能上显著优于现有最先进技术, 达到了 1dB 以上的提高。

论文:[2205.04437] Activating More Pixels in Image Super-Resolution Transformer (arxiv.org)里面附有代码。

摘要

基于变换的方法在图像超分辨率等低级视觉任务中表现出令人印象深刻的性能。然而,通过归因分析,我们发现这些网络只能利用有限的空间范围的输入信息。这意味着Transformer的潜力在现有网络中仍未得到充分利用。为了激活更多的输入像素以获得更好的重建,我们提出了一种新的混合注意转换器(HAT)。它结合了渠道关注和基于窗口的自关注两种方案,利用了两者能够利用全局统计和较强的局部拟合能力的互补优势。此外,为了更好地聚合交叉窗口信息,我们引入了重叠交叉关注模块,以增强相邻窗口特征之间的交互作用。在训练阶段,我们还采用了同任务预训练策略来挖掘模型进一步改进的潜力。大量的实验证明了所提出模块的有效性,并且我们进一步扩大了模型,以证明该任务的性能可以大大提高。我们的整体方法明显优于最先进的方法超过1dB。

一、介绍

图1所示。本文提出的HAT与最先进的方法SwinIR[31]和EDT[27]在PSNR(dB)上的性能比较。HAT- l是HAT的一个更大的变体。我们的方法比目前的方法高出0.3dB ~ 1.2dB。

单幅图像超分辨率(SR)是计算机视觉和图像处理领域的经典问题。它旨在从给定的低分辨率输入中重建高分辨率图像。由于深度学习已经成功地应用于SR任务[10],基于卷积神经网络(CNN)的许多方法被提出[8,11,12,24,29,32,68,70],并且在过去几年中几乎占据了该领域的主导地位。最近,由于在自然语言处理方面的成功,Transformer[53]引起了计算机视觉界的关注。在高级视觉任务上取得快速进展后[14,39,54],基于变压器的方法也被开发用于低水平视觉任务[6,57,65],以及SR[27,31]。特别是,一个新设计的网络,SwinIR[31],得到本任务的突破性改进。

尽管取得了成功,“为什么Transformer比CNN好”仍然是一个谜。一种直观的解释是,Transformer网络可以受益于自我注意机制,并利用远程信息。因此,我们采用归因分析方法LAM[15]来检查SwinIR中用于重建的利用信息涉及的范围。有趣的是,我们发现在超分辨率方面,SwinIR并不比基于cnn的方法(例如RCAN[68])利用更多的输入像素,如图2所示。

此外,尽管平均而言,SwinIR获得了更高的定量性能,但由于利用的信息范围有限,在某些样本中,它的结果不如RCAN。这些现象说明Transformer具有较强的建模本地信息的能力,但其利用信息的范围需要扩大。此外,我们还发现在SwinIR的中间特征中会出现阻塞伪影,如图3所示。结果表明,移位窗口机制不能很好地实现跨窗口信息交互。

为了解决上述局限性并进一步开发变压器在SR中的潜力,我们提出了一种混合注意力变压器,即HAT。我们的HAT结合了渠道关注和自关注两种方案,利用了渠道关注的全局信息利用能力和自关注的强大代表能力。

Activating network diagnostics(启用网络诊断)是指在计算机网络中使用特定的工具和技术来检测和解决网络故障和问题。网络故障和问题可能会导致网络性能下降、数据丢失、连接丢失等问题,影响网络的稳定性和可靠性。因此,当网络出现问题时,网络管理员需要启用网络诊断来快速识别和解决问题。 以下是一些常用的网络诊断工具和技术: 1. ping:ping命令可以用于测试主机之间的连通性。它发送ICMP报文到目标主机,并等待目标主机的响应。如果目标主机响应,则说明主机之间的连通性良好。如果没有响应,则说明主机之间存在连接问题。 2. traceroute:traceroute命令可以用于跟踪数据包从源主机到目标主机的路径。它发送一系列数据包到目标主机,并记录每个数据包经过的路由器。这可以帮助诊断网络拥塞和路由问题。 3. netstat:netstat命令可以用于显示网络接口和连接的状态。它可以显示当前打开的TCP和UDP连接以及与它们相关的进程和端口号。这可以帮助诊断连接问题和端口冲突。 4. Wireshark:Wireshark是一种网络协议分析器,可以用于捕获和分析网络流量。它可以显示每个数据包的详细信息,包括源和目标地址、协议类型和数据内容。这可以帮助诊断网络协议和数据包问题。 通过使用这些网络诊断工具和技术,网络管理员可以快速识别和解决网络故障和问题,提高网络的可靠性和性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值