图像分割UNet系列------Attention Unet详解

gz7seven

已于 2023-08-22 22:43:35 修改

阅读量5.3w

点赞数 80

分类专栏：深度学习医学图像处理文章标签： Attention UNet Attention UNet Attention Gate Attention详解

于 2021-08-12 13:12:40 首次发布

本文链接：https://blog.csdn.net/guzhao9901/article/details/119612308

版权

深度学习同时被 2 个专栏收录

43 篇文章

订阅专栏

医学图像处理

14 篇文章

订阅专栏

本文详细介绍了AttentionUnet的原理和结构，该模型旨在通过抑制不相关区域并突出局部特征，提高医学图像分割的精度。AttentionGate是其核心，通过soft-attention机制动态调整权重，关注感兴趣的区域。相比于Res-UNet的hard-attention，AttentionUnet更适合处理复杂场景，尤其在局部ROI的分割上有优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

图像分割unet系列------Attention Unet详解

Attention Unet发表于2018年中期（比Res-UNet要早一些），它也是UNet非常重要的改进版本之一。当然，Attention Unet同样也是应用在医学图像分割领域，不过文章主要是以胰脏图像分割进行实验与论证的。

1、Attention Unet主要目标

作者在摘要与简介中很清楚的表明了要解决的问题以及要达到的目标。具体如下所示：

抑制输入图像中的不相关区域，同时突出特定局部区域的显著特征；
用soft-attention 代替hard-attention的思路（注意：sorf-attention可微，可以微分的attention就可以通过神经网络算出梯度并且前向传播和后向反馈来学习得到attention的权重）；
集成到标准UNet网络结构中时要简单方便、计算开销小，最重要的是提高模型的灵敏度和预测的精度；

2、Attention Unet网络结构

将Attention融入到UNet的结构如下图1所示：
在这里插入图片描述
Attention Gate(AG) 的具体结构如下图2所示：

在这里插入图片描述

结合图1与图2可以很清楚的了解到Attention UNet网络结构的主要特点。从图1可以很清楚的看到解码部分feature map与其上一层的编码部分feature map作为AG的输入，经过AG后将结果cat上采样的解码部分feature map。下面我们根据图2详细讲一下GA操作。

首先， $g$ 与 $x^{l}$ 进行并行操作， $g$ 通过 $W_{g}$ 得到A， $x^{l}$ 通过 $W_{x}$ 得到B，随后进行A+B操作得到C。注意一点： $g$ 来自于 $x^{l}$ 下一层，尺寸大小是 $x^{l}$ 的1/2，所以要对 $x^{l}$ 进行下采样（当然也可以对 $g$ 进行上采样）。否则由于尺寸问题A与B不可能可以进行逐点“+”操作。从下面的Relu操作的维度可以看到，很明显是对 $x^{l}$ 进行下采样（应该主要是考虑到计算开销问题）。

然后，C进行了Relu操作得到D，D进行 $\psi$ 操作得到E。E进行sigmoid 操作得到F，F通过resampler（重采样）得到注意力系数 $\alpha$ （注意力系数其实是注意力权重）。

最后，注意力系数 $\alpha$ 乘以 $x^{l}$ 得到 $\widehat{x}^{l}$ 。

3、Attention Gate的本质

注意力机制的本质是什么样的呢？AG是如何做到提高局部（感兴趣区域ROI）特征抑制某些非感兴趣区域的呢？我自己根据自己的理解做一个简要的说明，不对的地方希望各位大神和同学们指正。

在上一节中讲到 $g$ 与 $x^{l}$ 进行卷积操作后得到A和B，然后相加得到C，假设他们的特征图分别如下所示，并表示这个过程。
在这里插入图片描述
从上图也可以看出， $g$ 与 $x^{l}$ 进行卷积操作后的A、B为什么要有相同的尺寸大小，否则无法进行加运算。我们从C中也可以看出，A+B实际上将相同的感兴趣区域的信号加强了（红色部分），各自不同的区域（绿色区域）也在其中作为辅助或是补充存在在C中（这样其实也保存了一定的回旋余地）。

从C到 $\alpha$ 的过程如下所示（假设 $\alpha$ 得到的结果如下图），从图中也可以看到，我认为得到的应该是一个注意力权重，以便于与 $x^{l}$ 进行点对点的相乘。从而不断提高局部ROI的权重抑制非ROI部分。
在这里插入图片描述
作者也在论文中给出了不断迭代过程中Attention Gate的效果，在3、6、10和150个epoch时，其中红色突出显示较高的注意力。随着训练的进行，网络学会了专注于期望的区域。具体效果如下图所示：

4、关于Attention Unet的思考

上次讲解的Res-UNet中同样也存在Attention模块，但是与Attention Unet相比，这两个Attention的方法是完全不同的。Res-UNet本质上是hard-attention，而Attention Unet本质上是soft-attention。
从Attention效果上看，Res-UNet的Attention关注的是整个视网膜部分，并没有对血管部分（局部ROI）进行attention操作，而Attention Unet是对局部ROI进行的操作。

从应对复杂场景来看，Res-UNet的Attention在较复杂的场景中（比如腹部CT）很难通过二值化操作得到正确的Mask。但是反观Attention Unet，通过sorf-attention的方法可以逐步加强局部ROI的权重，有效抑制无关区域中的激活，减少冗余的部分的skip。从这方面看，Attention Unet拥有更为广阔的应用范围。

从网络结构的设计角度看，Attention Unet相对于Res-UNet更为复杂一些。但是具体问题具体分析，包括其他UNet改进算法，适合自己项目的才是最好的。