论文笔记MSAA-Net: a multi-scale attention-aware U-Net is used to segment the liver

最新推荐文章于 2025-03-21 21:46:35 发布

NaiveXy

最新推荐文章于 2025-03-21 21:46:35 发布

阅读量1.4k

点赞数 1

分类专栏：医学图像分割文章标签：论文阅读图像处理深度学习

本文链接：https://blog.csdn.net/Stark_Z/article/details/130371808

版权

医学图像分割专栏收录该内容

31 篇文章

订阅专栏

MSAA-Net：使用多尺度注意力感知的U-Net分割肝脏

Signal, Image and Video Processing (2023) 17:1001–1009
https://doi.org/10.1007/s11760-022-02305-0

本文提出了一个使用多尺度注意力感知的U-Net肝脏分割网络。在单个特征层上提取不同尺度的特征，并在通道维度上进行注意感知。这种架构可以提高U-Net的性能，同时显着降低计算成本。同时为了解决U-Net的跳跃连接难以优化合并不同大小的对象的问题，设计了一个多尺度注意力门结构（MAG），它允许模型自动学习关注不同大小的目标。此外，MAG可以扩展到所有包含跳跃连接的结构，例如U-Net和FCN变体。在3Dircadb数据集上进行了广泛的评估，肝脏分割任务的方法的DICE相似系数为94.42%，模型参数的数量比其他注意力模型少得多。实验结果表明，MSAA网络在肝脏分割方面取得了非常有竞争力的性能。

MSAA-Net

U-Net结构已广泛应用于医学图像处理任务（及其skip-connected结构,包含浅信息和高级特性,具有良好的稳定性）MSAA-Net结构如上图所示。MSAA-Net可分为编码阶段和解码阶段。

编码器,MSAA-Net使用五层特征提取图像特征信息,但不像U-Net两个3×3卷积重复应用于每个层,MSAA-Net使用Res2Net和SE的瓶颈结构模块来提取每一层的语义信息,如下图所示。当一层特征提取完成后，MSAA-Net将使用步长为2的最大池化来压缩特征图，并以1×1卷积的方式增加通道数，下一层将继续以相同的方式提取语义信息。

解码器与编码器类似，使用相同的Res2Net+SE特征提取方法，但MSAA-Net在跳跃连接中使用多尺度注意门结构（MAG）进行了优化。MAG可以有效地缓解跳跃连接中的语义冲突，使网络专注于感兴趣的区域并抑制不相关的背景区域。MSAA-Net获取512×512的三通道图像作为输入，并输出相同大小的分割图像。有了SE模块和MAG，MSAA-Net具有更精确的分割效果。

Res2Net

瓶颈结构是许多高级网络模型的基础结构，Res2Net在瓶颈模块的基础上进行了改进，将一组3× 3过滤器替换为多组较小的3 ×3过滤器，并建立了类似于残差学习框架的连接，这使得Res2Net保留了瓶颈模块的类似功能，同时获得了增强的多尺度特征融合能力。

在1×1卷积运算之后，Res2Net模块将获得的特征图按通道数等分，并且每个划分的子集由xi，i {1，2，…s}，其中s表示块的数量。每个xi具有相同的大小和相同数量的通道。除了x1之外的所有xi都需要经过不同的3×3卷积运算。需要注意的是，K（i+1）处理后的特征图是通过拼接Ki和x（i+1）得到的，因此具有更大的感受野意义，输出结果out包含不同大小的尺度信息。这种分裂然后多尺度融合的过程有利于提取全局和局部信息。

Squeeze-and-excitation blocks

挤压和激发（SE）块由Hu等人提出，在一些论文中被称为通道注意机制。SE模块通过建模通道之间的相互依赖性来重新校准通道响应。简而言之，SE模块可以通过学习、加强任务感兴趣的通道的权重以及抑制与任务不太相关的通道来更新每个通道的重要性。将SE块引入到所有模块中，这将花费少量的计算来提高分割精度。此外，尝试将其与空间注意机制相结合，以产生一个更有效的门控设备，用于优化跳跃连接。（注：Res2Net和SE块的结构，灵感来自Ms-UNet ）

Multi-scale Attention Gate

多尺度注意力门结构如下图所示。MAG用于处理跳跃连接的特征图x1来获得优化的特征图xoutput2，xoutput2即用于与解码器部分的特征图进行通道拼接，然后通过1×1卷积降尺度到Res2Net +SE模块中，以完成多尺度信息融合。由于仅缩放特征，MAG花费少量计算来显著优化跳跃连接。

这里可以对比TA-Net的注意力模块，一个是类似‘并联’结构，另一个则类似是‘串联’结构。

Experimental results and analysis

使用公开可用的3Dircadb数据集进行模型的训练和测试。3Dircadb数据库包括10名女性和10名男性肝肿瘤患者的CT扫描。每例患者的CT扫描切片数分别为74 - 260，并以DICOM格式存储。数据库被分成20个文件夹，每个文件夹包含已经由专家手动分割的感兴趣位置的标签，例如，肝脏、肝脏肿瘤、门静脉、右肾等。

我们对整个数据集的所有图像进行了预处理。首先，将DICOM格式的图像转换为512×512 png图像，以用作网络的输入。其次，对所有图像进行窗口化处理，采用（400，50）HU值窗口突出任务区域，使分割区域清晰。最后，我们对所有2803幅原始图像和标记图像进行了直方图均衡化，解决了数据集中整体黑暗的问题。