基于注意力的语义分割之PSANet、DANet、OCNet、CCNet、EMANet、SANet等

最新推荐文章于 2025-01-17 14:41:39 发布

迷路的咸鱼

最新推荐文章于 2025-01-17 14:41:39 发布

阅读量1.8w

点赞数 38

CC 4.0 BY-SA版权

分类专栏： # 图像分割文章标签：计算机视觉神经网络深度学习

本文链接：https://blog.csdn.net/qq_37002417/article/details/108351293

图像分割专栏收录该内容

2 篇文章

订阅专栏

本文概述了注意力机制在计算机视觉中的重要应用，特别聚焦于语义分割任务中的AttentiontoScale、PSANet、DANet、OCNet和CCNet等模型。这些工作借鉴了人类视觉注意力原理，通过自上而下和自下而上的注意力，提升特征融合和长距离依赖理解。通过实例解析，展示了如何利用尺度注意力、空间注意力和通道注意力等模块，捕捉上下文信息，提升分割精度和效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

注意力机制（Attention Mechanism）如今被广泛使用在自然语言处理、图像识别等各种不同类型的深度学习任务中，是深度学习技术中值得关注与深入了解的核心技术之一。对注意力机制的研究动机是受到人脑注意力的启发，人脑可以快速地从视觉信号中选择需要关注的区域，即注意力焦点。因此，在观察图像时，人类会根据之前观察的图像学习到未来要观察图像时注意力应该集中的位置，同时给予周围图像区域较低的注意力，而不是一次读取整幅图像的所有像素，并且随着时间推移调整焦点。

人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性，注意力一般分为两种：一种是自上而下的有意识的注意力，称为聚焦式（focus）注意力；另一种是自下而上的无意识的注意力，称为基于显著性（saliency-based）的注意力。聚焦式注意力是指有预定目的、依赖任务的、主动有意识地聚焦于某一对象的注意力；基于显著性的注意力是由外界刺激驱动的注意，不需要主动干预，也和任务无关。

目前，在计算机视觉领域关于注意力的paper层出不穷，引发了一波研究 Attention 机制的热潮。下面列举了一些在语义分割任务中的经典工作。

Attention to Scale（2016）

又是熟悉的deeplab系列的作者Liang-Chieh Chen，在CVPR 2016上发表了《Attention to Scale: Scale-aware Semantic Image Segmentation》。作者的动机在于全卷积网络受制于较小的有效感知域，无法充分捕获长距离信息。为了让全卷积网络可以结合多尺度特征，从而获得更优异的性能，当时已经提出的提取多尺度特征的网络结构有以下两种：（a）skip-net，融合中间层产生的特征；（b）share-net，通过多尺度输入进行预测。作者的创新点在于：将注意力机制用到多尺度输入的语义分割网络中。

尺度注意力模块：注意力机制的任务主要是学习多尺度特征在每个像素位置的软权重，作者采用了DeepLab-LargeFOV的语义分割模型，将多尺度输入图像和注意力模型共同进行训练。注意力模块由两层组成，第一层的滤波器是3×3×512的大小，第二层的滤波器是1×1×S（S是使用的尺度的个数）。Max-pooling和Average-pooling这两种尺度融合方式可以算是本文方法的特例，加权公式： $g_{i,c}=\sum_{s=1}^S{w_i^s\cdot f_{i,c}^s}$
其中，不同尺度输出的score maps $f_{i,c}^s$ 经过双线性插值到相同的分辨率，经过加权融合为最后的得分图 $g_{i,c}$ 。注意力的输出为 $h_i^s$ ，权重是经过softmax归一化的， $w_i^s$ 代表了在每个像素点位置上不同尺度的权重不同，但是同一尺度所有通道间是共享 $w_i^s$ 的，不具有差异。
$w_i^s = \frac{exp(h_i^s)}{\sum_{t=1}^S{exp(h_i^t)}}$
如下图所示，注意力模型根据图像中的目标尺度对多尺度特征加权。对于每个尺度，注意力模型输出一个权重图，该权重图对每个像素点进行加权，然后利用网络生成的各个尺度得分图的加权和进行分类。例如，scale=1的注意力集中在小尺度的部位，scale=0.75的注意力集中在中尺度的部位，scale=0.5的注意力集中在大尺度的目标和背景上。
以下是注意力权值的分布热图：

PSANet（2018）

在 ECCV 2018 的《PSANet: Point-wise Spatial Attention Network for Scene Parsing》这篇论文中，作者认为由于卷积核的物理结构设计，导致CNN中的信息流被约束在局部区域中，从而限制了复杂场景的理解。因此，本文的创新点在于（1）通过自适应学习一个注意力掩码，将特征映射上的每个位置与其他位置联系起来，来缓和这种局部邻域约束；（2）设计双向信息传播路径，即每个位置聚合其他所有位置的信息来帮助预测自己，同时每个位置的信息可以分布到全局，协助所有其他位置的预测。
在这里插入图片描述

PSA模型结构：如上图所示，网络由collect和distribute两个平行分支构成。在每个分支中，首先应用1×1的卷积来减少输入特征图 $X$ 的通道数（从 $C_1$ 到 $C_2$ ），以减少计算开销。然后，通过几个卷积层生成特征图 $X$ 中每个位置的像素全局注意力 $A^c$ 和 $A^d$ ，根据注意力生成新的特征表示 $Z^c$ 和 $Z^d$ 。将新的表示 $Z^c$ 和 $Z^d$ concatenate起来，使用一个带有BN和激活层的卷积层进行特征融合。将新的全局上下文特征与局部表示特征 $X$ concatenate起来，接着用一个或多个带有BN和激活层的卷积层生成最终的特征映射。
Point-wise Spatial Attention：详细介绍注意力的生成过程。作者不是为每个位置 $i$ 直接预测一个大小为 $H \times W$ 的权重映射，而是先预测一个超完整的映射 $h_i$ ，大小为 $(2 H - 1) \times (2 W - 1)$ ，得到一个临时特征表示 $H^c$ 和 $H^d$ 。如上图所示，对于每个位置 $i$ ，可以将 $h_i$ 重新组合成一个空间映射（图中的浅色覆盖区域），以位置 $i$ 为中心，包含 $2 H - 1$ 行和 $2 W - 1$ 列，其中只有 $H \times W$ 的值对特征聚合有用，有效区域用虚线框突出显示。在这个过程中，作者用于预测注意力的filters是不同的，一个带有BN和激活层的1×1的卷积层进行特征适配，另一个卷积层负责生成每个位置的全局注意力图，使得网络能够通过调整权重来敏感地处理相对位置。
信息双向传递公式：信息聚合被建模为
$z_i=\frac{1}{N}\sum_{\forall j\in \Omega(i)}F(x_i,x_j,\Delta_{i,j})x_j$
$z_i$ 是位置 $i$ 新聚合的特征， $\Delta_{i,j}$ 代表 $i$ 和 $j$ 的相对位置， $F(x_i,x_j,\Delta_{i,j})$ 代表了学习到的从 $j$ 到 $i$ 的信息，所以其对不同位置是比较敏感的。这里的 $N$ 是为了归一化。最后将函数分解简化为双向信息传播路径：
$F_{\Delta_{i,j}}(x_i,x_j)\approx F_{\Delta_{i,j}}(x_i)+F_{\Delta_{i,j}}(x_j)$
简化形式代表了信息汇聚时，如图（a）所示，跟 $i$ 和 $j$ 的相对位置，以及信息流的目标位置 $i$ 有关；如图（b）所示，信息分配时跟 $i$ 和 $j$ 的相对位置，以及信息流的源位置 $j$ 有关。建立了双向信息传播模型，如图（c）所示：
$z_i=\frac{1}{N}\sum_{\forall j\in \Omega(i)}F_{\Delta_{i,j}}(x_i)x_j+\frac{1}{N}\sum_{\forall j\in \Omega(i)}F_{\Delta_{i,j}}(x_j)x_j$

DANet（2019）

为了捕捉丰富的上下文信息，CVPR 2019的《Dual Attention Network for Scene Segmentation》与基于多尺度特征融合的方法不同，利用自注意力机制，自适应地整合局部特征和他们的全局依赖关系。创新点：提出了位置注意模块和通道注意模块，分别对空间和通道维度上的语义相互依赖关系进行了建模。

Dual Attention Network：设计了两种类型的注意模块。基于扩张残差网络（dilated residual network）产生的局部特征来提取全局上下文信息，为像素级的预测获取更好的特征表达。首先，作者去除了下采样操作，并为最后两个残差块用了扩张卷积，因此将最终特征图的尺寸扩大到输入图像的1/8 ，在保留更多的细节的同时没有添加额外的参数。然后，来自扩张残差网络的特征将被输入到两个平行的注意力模块。
Position Attention Module & Channel Attention Module
以空间注意力模块为例：先采用卷积层来获取降维的特征，然后通过三个步骤将特征输入到位置注意力模块，并在空间long-range contextual信息中生成新的特征。第一步是生成空间注意矩阵，对任意两个像素特征的空间关系进行建模。第二步，在注意力矩阵和原始特征之间进行矩阵相乘。第三步，在上述乘积结果矩阵和原始特征上按元素相加，得到最终反映long-range contextual的特征表达。与此同时，通道注意力模块在通道维度上捕捉long-range contextual信息。除了上述第一步，通道注意矩阵是在通道维度上计算的，两者处理过程基本一致。最后，将两者的输出结果整合。

如上图所示，A经过卷积层产生了B,C两个新的C×H×W的特征图，将它们reshape到C×N，N=H×W是像素的个数。在B的转置和C进行矩阵相乘，N×C与C×N得到N×N的矩阵，再经过softmax层得到空间注意力图S，相似的位置相关性较高。同时，A经过卷积生成特征图D，reshape到C×N，将D和S的转置进行矩阵乘法，C×N与N×N得到的结果reshape到C×H×W。将结果乘一个缩放因子α后，再将A与其进行对应元素的求和，得到最终输出E。α初始化为0，逐渐地学习设置更多的权重，最后的输出：
$E_j=\alpha\sum_{i=1}^N(s_{ji}D_i)+A_j$

OCNet（2019）

与DANet同时期提出的《OCNet: Object Context Network for Scene Parsing》，也用了Self-Attention的想法去做分割，在知乎上可以看到作者的心路历程，也看到了作者还有该系列其他文章。作者提出，目前解决分割问题的方法主要在于（1）提高特征图分辨率来提高空间准确性；（2）利用上下文信息来提高准确性。创新点：聚焦在上下文聚合策略上，利用属于同一物体类别的像素集合来表示每个像素的物体上下文（object context），提出了object context pooling (OCP)。
整个pipeline如下图所示，给定一幅输入图像，采用完全卷积网络(FCN)提取特征映射，然后在特征映射上使用目标上下文模块输出更新后的特征映射。在更新后的特征映射图的基础上，采用分类器预测像素级标签映射，并采用双线性插值方法对label图进行8倍上采样，最终得到预测结果。
在这里插入图片描述

Object context pooling：OCP是object context module的关键组件，它的设计受到自注意方法的启发，主要包括两个主要步骤：物体上下文估计（Object context estimation）和物体上下文聚合（Object context aggregation）。为了表示每个像素点和像素点 $p$ 属于同一个物体类别的程度，设计了如下公式：
$w_{pi}=\frac1{Z_p}exp(f_q(x_p)^Tf_k(x_i))$
其中， $Z_p=\sum_{i=1}^{N}exp(f_q(x_p)^Tf_k(x_i))$ ， $N = W \times H$ 。 $f_q(\cdot)$ 和 $f_k(\cdot)$ 分别是查询函数和键值函数。通过聚合像素的表示来构造像素 $p$ 的目标上下文表示，如下所示：
$c_p=\sum_{i=1}^Nw_{pi}\phi(x_i)$
其中， $\phi(x_i)$ 是经过自注意力转化的函数。

三种OC方式：如下图所示，（b）Base-oc：给定一个输入特征图，对其采用目标上下文池化，然后将 ocp 的输出特征图和输入特征图拼接成输出特征图。（c）Pyramid-oc：根据输入特征图，分别利用四个平行的 ocps。每个分支将输入分成不同的金字塔尺度，并在每个分支中共享 ocp，然后将这四个输出特征图连接成一个新的特征图，并且融合增加输入特征图的通道。（d）Asp-oc：给定一个输入特征图，使用一个 ocp 和四个扩张卷积，然后将这五个输出特征图连接起来作为输出。

CCNet（2019）

在ICCV 2019发表的《CCNet: Criss-Cross Attention for Semantic Segmentation》，作者认为长距离的依赖关系可以捕获有用的上下文信息，以使视觉理解问题受益。创新点在于CCNet对于每个像素，都可以通过新颖的criss-cross attention(CCA)模块获取交叉路径上其周围像素的上下文信息。通过采取进一步的循环操作，每个像素最终可以捕获所有像素的远程依赖关系。与non-local相比，recurrent CCA模块所需的GPU内存使用量减少且计算效率提高。
Non-local网络利用自我注意力机制，该机制使任何位置都可以感知所有其他位置，从而生成更多更有效的像素级表示，如下图（a）所示。但是，这些基于注意力的方法需要生成巨大的注意力图来测量每个像素对的关系，其时间和空间复杂度均为 $O ((H \times W) \times (H \times W))$ ，其中 $H \times W$ 为输入特征图的空间尺寸。由于输入特征图在语义分割任务中始终具有高分辨率，因此基于自注意的方法具有较高的计算复杂度，并占用大量GPU内存。
在这里插入图片描述

Network Architecture：
输入图像经过深度卷积神经网络（DCNN），该深度卷积神经网络是全卷积网络，然后生成特征图 $X$ 。为了保留更多细节并有效地生成密集的特征图，删除了最后两个下采样操作，并在随后的卷积层中使用了空洞卷积，从而扩大了宽度/高度，将输出特征 $X$ 映射为输入图像的1/8。然后，将降维后的特征图 $H$ 送入CCA模块，生成的新特征图 $H^{'}$ 仅在水平和垂直方向上聚合上下文信息。为了获取更丰富和更密集的上下文信息，将特征图 $H^{'}$ 再次输入到CCA模块中，这样得到的特征图 $H^{''}$ 中的每个位置就收集了所有像素的信息。最后将密集的上下文特征 $H^{''}$ 和局部表示特征 $X$ 连接起来，将融合的特征图送入分割网络层。
Criss-Cross Attention：如下左图所示，输入H为 $C \times W \times H$ ，通过1×1卷积得到 $C^{'}×W×H$ 的Q和K，用Q和K生成 $(H + W - 1) \times W \times H$ 的A。具体地，提取Q的某一像素位置，得到 $1×)C^{'}$ 的大小，然后提取K上十字位置的特征向量，向量大小为 $H+W-1)×C^{'}$ ，进行affinity操作得到 $(H + W - 1) \times W \times H$ ，再对 $(H + W - 1)$ 维度进行softmax操作，得到A。最后进行aggregation操作，将 $C \times W \times H$ 大小的V取十字特征向量与A特征图进行对应元素按位相乘，得到 $H^{'}$ 的空间大小为 $C \times W \times H$ 。
如下右图所示，Loop 1是十字计算权重，所以深绿和深蓝位置并没有关联；但是经过loop 2，浅绿位置已经有了深绿和深蓝位置的上下文信息，就可以将深蓝和深绿位置关联起来。分解极大地降低了时间和空间上的复杂性，复杂度为 $O ((H \times W) \times (H + W - 1))$ 。与CCA模块相比，RCCA模块不会带来额外的参数，并且可以以较小的计算增量为代价实现更好的性能。RCCA模块也是一个自包含的模块，可以在任何阶段插入任何CNN体系结构，并以端到端的方式进行优化。

EMANet（2019）

北大在ICCV 2019提出了一篇接受为 Oral 的论文《EMANet：Expectation-Maximization Attention Networks for Semantic Segmentation 》，与CCNet的动机类似，Non-local的自注意力机制使得每个像素可以充分捕获全局信息，然而需要生成一个巨大的注意力图，因为每一个像素的注意力图都需要对全图计算。本文的创新点在于提出了期望最大化注意力机制（EMA），摒弃了在全图上计算注意力图的流程，转而通过期望最大化（EM）算法迭代出一组紧凑的基，在这组基上运行注意力机制，从而大大降低了复杂度。
在这里插入图片描述
如上图所示，期望最大化注意力机制由 $A_E, A_M, A_R$ 三部分组成，前两者分别对应EM算法的E步和M步。假定输入的特征图为 $X\in R^{N×C}$ ，基初始值为 $\mu\in R^{K×C}$ ， $A_E$ 估计隐变量 $Z\in R^{N×K}$ ，即每个基对像素的权值， $A_M$ 更新基 $\mu$ 。
$Z^{(t)} = softmax(λX(µ^{(t−1)})^T)$
其中， $λ$ 作为超参数来控制 $Z$ 的分布。
$µ_k^{(t)}=\frac{z^{(t)}_{nk}x_n}{ \sum^N_{m=1} z^{(t)}_{mk}}$
$A_E$ 和 $A_M$ 交替执行 T 步，之后，近似收敛的 $μ$ 和 $Z$ 便可以被用来对 $X$ 进行重估计得：
$\widetilde X = Z^{(t)} \mu^{(t)}$
训练时使用moving average更新 $\mu$ ， $\mu^{(0)}\leftarrow\alpha\mu^{(0)}+(1-\alpha)\bar\mu^{(t)}$ ，其中 $\bar\mu^{(t)}$ 是为了保证 $\mu$ 的学习是稳定的，选择L2Norm对 $\mu$ 做归一化。EMA 在获得低秩重构特性的同时，将复杂度从 Non-local 的 $O(N^2)$ 降低至 $O (N K T)$ 。实验中，EMA 仅需 3 步就可达到近似收敛，因此 T 作为一个小常数，可以被省去，因此 EMA 复杂度仅为 $O (N K)$ ，由于 K 远小于 N，其复杂度得到显著的降低。

SANet（2020）

CVPR 2020的《Squeeze-and-Attention Networks for Semantic Segmentation》提出了一个新的squeeze-and-attention network（SANet）。作者认为语义分割可以分为两个子任务pixel-wise prediction（处理每个像素的预测）和pixel grouping（增强像素之间的联系），因此引入了SA module从而解决像素分组的问题，并且更好的指导像素的预测；受Squeeze-and-Excitation Networks（SENet）的启发，SANet扩展SENet来缓解卷积核的局部限制，引入‘attention’ convolutional channel（“注意力”卷积通道），在常规卷积上实现像素群的注意，从而有效地考虑了spatial-channel的相互依赖性。
在这里插入图片描述

Squeeze-and-attention module：如上图所示，
（a）Residual Block： $X_{out} = X_{in} + X_{res} = X_{in} + F(X_{in}; Θ, Ω)$ 这其中的 $F(\cdot)$ 代表了残差函数，它的结构由两层卷积用参数 $Θ, Ω$ 决定。
（b）Squeeze-and-excitation(SE) module： $X_{out} = w ∗ X_{in} + F(X_{in}; Θ, Ω)$ 其中的 $w$ 用于重新校准输入特征映射的通道关系: $w = Φ(W_2 ∗ σ(W_1 ∗ APool(X_{in})))$ $Φ(\cdot)$ 代表了sigmoid函数， $σ(\cdot)$ 代表了ReLU激活函数。
（c）Squeeze-and-attention (SA) module： $X_{out} = X_{attn} ∗ X_{res} + X_{attn}$ SA在SE进行改进，没有将空间信息完全压缩。其中 $X_{attn}$ 是通过注意力卷积通道后的输出经过上采样得到的 $X_{attn} = Up(σ(\hat X_{attn}))$ $\hat X_{attn} = F_{attn}(APool(X_{in}); Θ_{attn}, Ω_{attn})$
Squeeze-and-attention network：如下图所示，将SA module作为head，从四个阶段的骨干网络中提取特征，以充分利用其多尺度信息。总的损失包含以下三部分：dense loss(CE loss)，mask loss(CE loss)，and categorical loss(binary CE loss)。 $L_{SANet}= L_{mask} + α ∗ L_{cat} + β ∗ L_{den}$
其中， $L_{mask} =\frac1{N × M}\sum^N_{n=1}\sum^M_{i=1}\sum^C_{j=1}Y_{nij} log \hat Y^{mask}_{nij}$
N，Ｍ，C分别是逐图片、逐像素、逐类别进行累计。
$L_{cat} =\frac1N\sum^N_{n=1}\sum^C_{j=1}y_{nj} log \hat y^{cat}_{nj}+(1-y_{nj}) log (1-\hat y^{cat}_{nj})$ $L_{den} =\frac1{N × M}\sum^N_{n=1}\sum^M_{i=1}\sum^C_{j=1}Y_{nij} log \hat Y^{den}_{nij}$