1. HAT介绍
1.1 摘要:基于 Transformer 的方法在低级视觉任务(例如图像超分辨率)中表现出了令人印象深刻的性能。 然而,我们发现这些网络通过归因分析只能利用有限的输入信息空间范围。 这意味着 Transformer 的潜力在现有网络中仍未得到充分发挥。 为了激活更多的输入像素以实现更好的重建,我们提出了一种新颖的混合注意力变换器(HAT)。 它结合了通道注意力和基于窗口的自注意力方案,从而利用了它们能够利用全局统计数据和强大的局部拟合能力的互补优势。 此外,为了更好地聚合跨窗口信息,我们引入了重叠交叉注意模块来增强相邻窗口特征之间的交互。 在训练阶段,我们还采用了相同任务的预训练策略,以挖掘模型进一步改进的潜力。 大量的实验证明了所提出的模块的有效性,并且我们进一步扩大了模型以证明该任务的性能可以得到极大的提高。 我们的整体方法明显优于最先进的方法 1dB 以上。