Attention in Attention for Image Super-Resolution

最新推荐文章于 2023-01-26 22:36:00 发布

AIWalker-Happy

最新推荐文章于 2023-01-26 22:36:00 发布

阅读量2.1k

点赞数

分类专栏：图像超分深度学习

本文链接：https://blog.csdn.net/huohu728/article/details/116098239

版权

注意力机制图像超分辨率 A2N网络 Attention Dropout Module 性能提升

关键词由CSDN通过智能技术生成

深度学习同时被 2 个专栏收录

30 篇文章 6 订阅

订阅专栏

图像超分

13 篇文章 2 订阅

订阅专栏

编辑：Happy
首发：AIWalker

标题&作者团队

paper: https://arxiv.org/abs/2104.09497

code: https://github.com/haoyuc/A2N(尚未开源)

本文是亚马逊&悉尼大学大研究员在注意力机制在图像超分中应用探索。本文从“为什么注意力会起作用，它又是如何起作用”两个问题出发，从理论&实验角度给出了解释，然后针对“图像超分中并非所有注意力都有正向作用”问题提出了注意力丢弃模块并用于构架图像超分。最后，作者通过实验证实：所提方案可以取得比其他轻量化方法更好的性能均衡。

Abstract

已有研究表明：注意力机制对于高性能超分模型非常重要。然而，很少有工作真正讨论“为什么注意力会起作用，它又是如何起作用的”。

我们尝试量化并可视化静态注意力机制并表明：并非所有注意力模块均有益。我们提出了attention in attention network（A2N）用于高精确图像超分。具体来说，A2N由非注意力分支与耦合注意力分支构成。我们提出了Attention dropout module(ADM)为两个分支生成动态注意力权值，它可以用于抑制不重要的注意力调整。这使得注意力模块可以更专注于有益样例而无需其他惩罚，因此能够以少量的额外参数提升注意力模型的容量。

实验结果表明：所提方案可以取得比其他轻量化方法更好的性能均衡。Local attribution maps(LAM)实验同样表明：所提Attention in AttentionA2结构可以从更宽的范围内提取特征。

本文主要贡献包含以下几点：

我们对神经网络不同阶段的注意力层有效性进行了量化分析，提出了一种有效的注意力层简直策略；
我们提出了一种Attention in Attention BlockA2B，它可以为起内部分支动态生成和为1的注意力。由于其中一个分支为注意力分支，故而称所提模块为A2B；
基于A2B提出了A2N，相比类似网络的基线网络，所提方法可以取得更优异的性能。

Motivation

给定输入特征 $F\in R^{C \times H \times W}$ ，注意力机制将预测一个注意力图 $M_A(F) \in R^{C^{'}\times H^{'} \times W^{'}}$ 。比如，通道注意力将生成一个1D注意力图 $R^{C\times 1 \times 1}$ ；空域注意力将生成一个2D注意力图 $R^{1\times H \times W}$ ；通道-空域注意力将生成一个3D注意力图 $R^{C\times H \times W}$ 。很自然的，我们提出了两个问题：

图像的每一部分具有更高或者更低的注意力系数呢？》
是否注意力机制总是有益于超分模型呢？

Attention Heatmap

LR空间中包含冗余的低频成分以及少量的高频成分。RCAN一文认为：无注意力的模型会对所有特征均等对待，而注意力有助于网络对高频特征赋予更多的注意。然而，很少有工作能够证实上述假设。

为回答上述所提第一个问题，我们通过实验来理解超分中注意力机制的行为。我们构建了一个包含10个注意力模块的网络，每个注意力模块采用通道和空域注意力层，因此每个像素具有独立的注意力系数。

attention-visual

上图给出了某些特征与注意力图的可视化效果，上表给出了注意力图与高通滤波之间的相关系数。尽管这种度量方式无法精确度量注意力响应，但我们的目的是量化不同层之间的相对高通相关性。

从上图&上表可以看到：不同层学习到的注意力变化非常大。比如第一个注意力模块与第十个注意力模块表现处了截然相反的响应，意味着：低层的注意力模块倾向于低频模式，高层的注意力模块倾向于高频模块，中间的模块则具有混合响应。

Attention Dropout

基于上述发现，我们尝试最大限度的减少注意力的使用，同时最小化额外参数量。一个直观的想法：仅在性能关键层保留注意力层。然而，上述分析并不是一种有效的度量注意力层有效性的方案。

为定量度量注意力层的有效性，我们提出了Attention dropout框架。我们通过关闭特定注意力层进行了一系列对比实验，结果见下表。

importance

从上表可以看到：模块深度很大程度影响了注意力模块插入位置。该结果进一步验证了：全网络均匀的设置注意力是次优方案。

Method

已有采用了固定注意力层方案(比如RCAN、PANet)总体同时激活所有注意力图且与图像内容无关。前述实验表明：注意力层的有效性会随位置发生变化。这启发我们构建一个非注意力短连接分支与一个注意力分支并采用动态权值进行混合。

Network Architecture

framework

上图给出了本文所提A2N整体架构示意图，它包含三部分：

浅层特征提取：我们采用单个卷积提取浅层特征， $x_0 = f_{ext}(I_{LR})$ ;
堆叠A2B模块：我们采用链式堆叠A2B提取深层特征： $x_n = f_{A2B}^n(f_{A2B}^{n-1}(\cdots f_{A2B}^0(x_0)\cdots))$
重建模块：完成深度特征提取后，我们通过重建模块进行上采样。在重建模块中，我们首先采用最近邻插值上采样，然后在两个卷积层中间插入一个简化版通道-空域注意力。
全局连接：我们同时还采用了全局连接：对输入 $I_{LR}$ 通过最近邻插值上采样，然后与上述重建结果相加：

$I_{SR} = f_{rec}(x_n) + f_{up}(I_{LR})$

Attention in Attention Block(A2B)

尽管前面我们已经讨论了不同注意力层的动态贡献，但仍然难以手动确定注意力模块的拓扑结构。受启发于动态核，我们提出了可学习ADM以自动丢弃某些不重要的注意力特征，平衡注意力分支于非注意力分支。具体来说，每个ADM采用加权方式控制注意力分支与非注意力分支的动态加权贡献。

adm

如上图c所示，ADM根据输入为不同分支生成了动态加权权值，可以描述如下：
$x_{n+1} = f_{1\times 1}(\pi_n^{na} \times x_n^{na} + \pi_n^{att} \times x_n^{att})$
动态加权权值计算方式如下：
$\pi_n = f_{drop}(x_n)$
a2b

上图给出了A2B结构示意图，ADM首先对输入进行均值池化，然后送入两个全连接层+Softmax生成动态加权权值。正如动态卷积一文所提到：约束动态权值可以促进ADM的学习。具体来说，我们采用了sum-to-one约束，即 $\pi_n^{na} + \pi_n^{att}=1$ 。这种约束方式可以压缩核空间，极大的简化 $\pi$ 的学习。