Multi-organ segmentation network for abdominal CT images based on spatial attention and deformable c

最新推荐文章于 2025-01-19 17:50:54 发布

Never_Jiao

最新推荐文章于 2025-01-19 17:50:54 发布

阅读量1k

点赞数

分类专栏：论文研读医学图形处理 DeepLearning 文章标签：深度学习腹部多器官分割

原文链接：https://www.sciencedirect.com/science/article/pii/S0957417422016748?casa_token=q-igmMtFfDIAAAAA:9Mx0Mw8jK6F9N9iZzr_GTy3-tEUgooVFD0cSxVVxcxGNt_r80do0Kx2zI8AMs74gzolmW_3iMg

版权

DeepLearning 同时被 3 个专栏收录

65 篇文章

订阅专栏

医学图形处理

57 篇文章

订阅专栏

论文研读

56 篇文章

订阅专栏

Multi-organ segmentation network for abdominal CT images based on
spatial attention and deformable convolution
发表期刊：Expert Systems With Application
发表时间：2022年

Abstract

基于计算机断层扫描 (CT) 图像的多器官准确分割对于诊断腹部疾病（如癌症分期）和手术计划（如减少对靶器官周围健康组织的损伤）具有重要意义。由于 CT 背景的复杂性以及不同器官的大小和形状不同，这项任务极具挑战性。本文提出了一种基于U-Net的肝-胆-胰手术相关器官的分割模型，包括胰腺、十二指肠、胆囊、肝脏和胃。该模型具有可变形的感受野，并利用器官在位置和大小方面的结构来减少复杂背景的干扰，使其成为一种高效且准确的分割方法。提出了一个空间注意块，通过显式外部监督学习空间注意图，在特征提取过程中突出感兴趣的器官区域。此外，设置了一个可变形的卷积块，通过额外的可训练偏移量为不同器官产生合理的感受野，从而处理形状和大小的变化。此外，通过使用多尺度注意力图和高级语义信息改进了 U-Net 的跳跃连接结构。所提出的模型在 TCIA 多器官分割数据集上与 U-Net 和几个改进的变体进行了比较，包括分割性能、时间消耗和模型参数。结果表明，所提出的模型可以有效地提高整体分割性能，平均 DICE 为 80.46%，代价是模型参数增加了 7.86%。与 U-Net 相比，平均 DICE 增加 1.65%，平均 JSC 增加 1.79%，平均 95% HD 减少 4.08。它是一种有竞争力的多器官分割方法，具有较好的应用潜力。

Keywords：Deep learning，Multi-organ segmentation，U-net，Attention mechanism，Deformable convolution，CT image

Introduction

基于计算机断层扫描 (CT) 的器官准确分割对于计算机辅助诊断 (Li, Wu, & Shen, 2020)、手术计划 (Galloway et al., 2012) 和放射治疗中靶器官的定位 (Fritscher) 至关重要等人，2014）。是深度学习在图像分割中的研究热点。准确的器官分割结果是定量分析诊断的前提，有助于病灶的定位和分期（Lee & Chen, 2015）。此外，基于器官分割结果的 3D 重建可以在手术计划和放射治疗中提供可视化的解剖环境，这有助于最大限度地减少对周围健康组织的损害（Wang et al., 2011）。 CT图像的人工分割繁琐且容易出错，因此自动分割被广泛研究。

腹部疾病的诊断和治疗需要多器官分割。肝脏、胆囊和胰腺等腹部器官在解剖学上密切相关，并且在功能上相互补充（Cho et al., 2009）。因此，肝胆胰相关疾病的诊断和治疗需要考虑器官之间的关系，而不仅仅是单个器官的准确轮廓。一些严重的腹部疾病，如原发性肝癌、胰腺炎和胰腺癌，无论是开腹手术还是腹腔镜手术（Correa-Gallego et al., 2014），总是涉及十二指肠和胃。这些器官的准确分割可以为手术计划和导航提供必要的临床约束（Li et al., 2020），从而提高手术的安全性和效率。因此，迫切需要研究腹部CT图像的多器官分割。

传统的 CT 图像分割方法，如基于阈值的 (Moghadas-Dastjerdi et al., 2017; Singh & Bose, 2021) 图切割 (Chen et al., 2012; Li et al., 2015) 区域生长 (Bozkurt et al., 2018), 是通过使用强度或梯度的差异来实现的。这种方法需要丰富的专业知识和大量人工设计的特征，并且最终的分割结果受特征选择的影响。例如，基于阈值的分割方法对阈值的选择极为敏感，在灰度值不均匀和边界模糊的多器官分割中鲁棒性较差。因此，这些方法仅用于粗略的器官分割或特定器官的分割。逐渐地，以 U-Net (Ronneberger et al., 2015) 为代表的深度学习模型可以自动提取图像特征，而无需复杂的非刚性配准。因此，这些模型在多器官分割中具有有效性和效率的巨大优势。

然而，由于多器官分割的复杂性，基于深度学习模型的分割方法仍然面临两个明显的困难。首先，腹部CT的背景非常复杂，相邻器官之间的界限很模糊。由于不同结构之间纹理和形状的细微变化，这些模糊边界的分割具有挑战性。其次，不同的靶器官在大小和形状上存在很大差异。因此，较小的结构更容易被忽略，这使较小器官的分割性能变差。

为了解决上述困难，提出了基于 U-Net 的新骨干网，例如 3D 网络 (Gibson et al., 2018) 混合 2D-3D 网络 (Li et al., 2018) 和级联网络 (Zhang et al., 2018， 2020) 这些方法可以利用 3D 空间信息或通过粗到细的分割策略提供器官的先验信息。因此，它们实现了比 U-Net 更好的分割性能。然而，与 U-Net 相比，这些主干的复杂结构带来了众多的模型参数和计算成本，这限制了它们的应用。另一种提高分割性能的常用方法是将改进的块引入 U-Net。改进的块，如密集块 (Gu et al., 2019) 和金字塔块 (Jia et al., 2019) 被证明在自然图像分割、分类和定位任务中表现良好。然而，这种改进的块在相对大小和位置方面往往忽略器官的结构，并且容易受到复杂背景的干扰，这使得它们在边界模糊和大小和形状变化大的多器官分割方面表现不佳。

在本文中，为了进一步优化基于 U-Net 的多器官分割模型的性能，提出了一种改进的模型，该模型可以生成可变形的感受野，并为编码器和解码器提供器官位置和大小的信息。具体来说，提出了三个改进块并将其引入 U-Net，用于分割肝-胆-胰手术中的五个关键器官，包括胰腺、十二指肠、胆囊、肝脏和胃： (1) 使用外部监督的空间注意块获得精细的注意力图以突出目标器官的位置和大小； (2) 静态变形卷积的可变形卷积块，通过使用额外的可训练偏移来改进偏移场的生成，并为不同器官提供更合理的感受野； (3) 跳过连接块，利用多尺度注意力图和高级语义信息来协调编码器和解码器特征之间的语义差异，以消除复杂背景的干扰。

本文的其余部分安排如下。在第 2 节中，对相关工作进行了简要回顾；第 3 节解释了本研究中的三个重要模块和分割模型的架构。实验结果在第 4 节中介绍，其中所提出的方法通过使用公开可用的多器官分割数据集进行评估。在第 5 节中，使用最先进的模型进行视觉分析和比较讨论。最后，第 6 节描述了结论。

Related work

本节概述了多器官分割和基于 U-Net 的分割模型。

Multi-organ segmentation

由于背景复杂、边界模糊以及器官大小和形状的可变性，多器官分割极具挑战性。基于特定图像特征的方法只能解决部分器官的分割问题。为了解决这个问题，基于知识的方法从标记的数据集中获取不同器官的解剖知识，从而提高了多器官分割的鲁棒性和准确性。常见的基于知识的方法包括多图集（Wolz 等人，2013；Tong 等人，2015；Oli veira 等人，2018）、统计形状模型（Cerrolaza 等人，2015；Okada 等人，2015) 和深度学习模型 (Gibson et al., 2018; Heinrich et al., 2019; Zhang et al., 2020) 表1列出了不同方法在数据集大小、分割精度和时间成本方面的比较。可以发现，深度学习模型在相对较小的数据集下实现了更好的分割精度。同时，深度学习模型在分割速度和对不同器官的适应性方面也表现出明显的优势，这使得它们在临床应用中更具潜力。

Table1

多图集将训练数据集中的图像配准到新图像，并结合图集中的标签以生成分割结果。统计形状模型在训练数据集中对图像进行配准，以构建器官相应形状分布的统计模型。这些方法由于图像配准效率低而耗时，其分割精度也受到配准精度的限制。深度学习模型是无配准的，可在图形处理单元 (GPU) 的支持下实现高效分割。因此，基于深度学习方法的模型是近年来多器官分割研究的热点，其中研究最多的分割模型是基于U-Net及其变体的。

U-Net based segmentation model

由于对称的编码器-解码器结构和跳跃连接，U-Net 需要相对较少的训练图像并提供更准确的分割，这被证明在生物医学领域表现更好。表2总结了基于U-Net的常见改进模型。基于U-Net的改进主干，包括V-Net、H-DenseUNet和BLSC，都在一定程度上提高了分割精度。然而，它们过于复杂的结构使它们使用起来更加昂贵并且更难以训练。相比之下，将改进的块引入 U-Net 是一种更有效的方法。注意块和局部块分别增强了全局建模能力和局部感知能力。

Table2
现有的改进块，包括增强全局建模能力的注意力块和增强局部感知能力的局部块，有助于提高分割性能。
虽然改进后的块被证明是有效的，但在处理模糊边界和形状差异时仍然存在不足。

注意块通过动态加权突出显著特征。注意力图通常是通过计算内部相关性获得的，例如加性注意力（Schlemper et al., 2019; Gao et al., 2021）、乘性注意力（Wang et al., 2018; Huang et al., 2019; Xie et al., 2020) 和 self-attention (Fu et al., 2019; Zhang et al. 2019) 。然而，它们都忽略了腹部器官在相对位置和大小方面的结构，这导致了粗略的注意力图。因此，本文提出了一种空间注意力块，通过显式外部监督获得更准确的注意力图。

局部块，包括密集块、残差块、金字塔块和可变形卷积，通过提供复杂的感受野来提高分割性能。其中，可变形卷积通过使用可训练的偏移量来处理尺寸和形状的变化，在计算成本方面具有明显的优势。然而，由于边界模糊的影响，可变形卷积往往会产生不合理的感受野，导致分割精度较差。因此，本文提出了一种静态变形卷积，以获得更适合不同器官的感受野。

此外，利用局部块改进 U-Net 的跳跃连接也是一个热门研究课题。 UNet 的跳跃连接结构可以为解码器提供高分辨率的定位信息，并帮助恢复丢失的空间信息。它还降低了训练期间梯度消失的风险（Long et al., 2015）。然而，由于编码器和解码器之间的语义差异，简单的连接限制了识别特征的能力。因此，一些方法 (Ibtehaz & Rahman, 2020; Zhou et al., 2020) 设计了更复杂的跳跃连接结构以实现改进。在本文中，提出了一个跳跃连接块，将多尺度注意力图和高级特征引入解码器。

Methods

多器官分割模型是通过在 U-Net 中引入改进的块来构建的，以确保分割效率。本节介绍了三个改进模块的设计以及所提出模型的完整架构。

Backbone based on improved U-Net

为了在不增加过多计算成本的情况下提高多器官分割精度，使用2D U-net (Ronneberger et al., 2015)作为分割模型的主干网络，主干网络结构如图1所示。它具有编码器-解码器的对称结构，其中具有相同分辨率的编码器的特征图通过跳跃连接结构与解码器的特征图复制并连接，以帮助恢复目标的细节。==为了解决内部协变量偏移问题并加快训练过程，在每个卷积层和 ReLU 激活层之间插入了一个批量归一化层 ==(Ioffe & Szegedy, 2015) 。此外，每个卷积层中的过滤器数量设置为原始 U-Net 的一半，以减少训练时间并避免过度拟合。

Fig.1
Fig.1 U-Net 架构.

U-Net的编码器通过多层卷积、池化和ReLU实现特征提取和降维。由于复杂背景的影响，特征提取过程容易丢失目标信息。因此，在池化层之前添加了三个空间注意块来处理这个问题，在图1中用绿色虚线框标记。同时，为了避免将不相关的背景信息传递给解码器，还改进了skipconnection以利用多尺度注意力图。最后，将图 1 中红色虚线框标记的编码器最深阶段替换为可变形卷积块，以利用高级特征为不同器官提供合适的感受野。

Spatial attention block

Attention nechanism

如图 2 所示，常见的注意力机制分为两个步骤：在输入信息上计算注意力分布；然后根据注意力分布对源特征的值进行加权。注意机制的过程可以用方程式(1)表示:
Eq.1
Fig.2

其中 K 和 V 是通过对源特征 X 进行编码得到的，分别称为 Key 和 Value； Query q 是与任务相关的查询向量或矩阵。 Attention 模型利用分数函数 f( • ) 来评估 Key 和 Query 之间的相关性，得到相应的能量分数 e。分布函数 g(•)，如 Sigmoid 和 Soft Max，将 e 转换为 [0, 1] 范围内的注意力权重 α。最后，通过将 α 与 V 相乘得到加权值 Z。

Spatial attention obtained by external supervision

为了获得更准确的注意力图，提出了一种空间注意力块，以利用腹部器官的相对位置和大小的结构。如图 3 所示，空间注意力块以编码器第l 层输出的特征图 $E^l$ 作为输入，通过外部监督获得注意力图；基于注意图，空间注意模块修剪特征图中的响应以保留与分割相关的激活，然后输出 $E^l_α$ 。图 3 中用虚线框标记的结构可以看作是一个轻量级的分割网络，它为编码器的其余阶段提供目标器官的大小和位置的先验信息。

Fig.3
图 4 说明了所提出的空间注意块的结构。 S( • ) 是一个轻量级的编码器-解码器模型，用于获得粗分割结果。注意力机制的过程可以表示为：

Eq.2
其中 $θ_F$ 是 S( • ) 的可学习参数； σ( • )是1×1卷积层和SoftMax激活层的组合，将K转换为粗分割结果； q 是ground truth； L( • ) 是分割损失函数；具有可学习参数 $θ_g$ 的分布函数 g( • ) 结合了 1 × 1 卷积层和 Sigmoid 激活层。为了区分不同的器官，将粗分割结果与加权特征图拼接得到最终的特征图 $E^l_α$ ，表示为：

Fig.4
Eq.(3)
其中“⊕”表示通道维度中的连接操作。

Deformable convolution block

Deformable convolution

可变形卷积通过可训练的偏移量获得自适应感受野。以一个3×3的卷积核为例，常规卷积的采样网格可以表示为 $G_d = \{p_{d1}, p_{d2},⋯, p_{d9}\}$ ，其中 $p_{d1}$ = ( -1, -1), $p_{d2}$ = ( -1, 0), ⋯, $p_{d5}$ = (0, 0), ⋯, $p_{d9}$ = (1, 1)。如图 5 所示，对于特征图上的位置 $p_0$ ，绿点表示基于 $G_d$ 得到的具有相应偏移量的采样点，其中 $p_{d5}$ 没有偏移量，与 $p_0$ 重合。
Fig.5
对于每个输入特征图 X，输出特征图 Y 在位置 $p_0$ 的预测值可以表示为： Eq.(4)
可变形卷积中的预测值可以表示为:
Eq.(5)
其中 $p_{di}$ 列举了 $G_d$ 中的位置； $Δp_d$ 是附加偏移量， $W_d$ 是对应的权重向量。由于偏移量 $Δp_d$ 通常不是整数，因此使用双线性插值确定偏移后的采样点值。 DCN (Dai et al., 2017; Zhu et al., 2019) 通过 3×3 的卷积运算从 X 得到一个称为 offset field 的特征图 $X^O$ ，每个位置 $p_0$ 对应的特征向量 $X^O(p_0)$ 是附加的预测 $Y(p_0)$ 所需的偏移量 $Δp_d$ 。

Static deformed convolution

为了在生成偏移场 $X^O$ 时获得更多的上下文信息，在可变形卷积块中添加了额外的静态变形卷积，如图 6 所示。与 DCN (Dai et al., 2017) 不同的是，在静态可变形卷积中共享一组采样位置，它们是网络的可学习参数，在训练后变得固定。这些采样位置提供的不规则感受野使偏移场 $X^O$ 更加合理。

Fig.6
图 6 说明了可变形卷积块的结构。令 $G_s$ 为静态可变形卷积的采样网格。 $G_s$ 定义为 ${p_{s1},p_{s2},⋯,p_{sn}\}$ ，其中 $p_{si} = ( xi, yi ) ,i = 1,2,⋯,n$ 。 $p_{si}$ 表示每个采样位置与预测位置的偏移量。 $p_0$ 处所需的偏移量可以计算为：
Eq.(6)

其中 $p_{si}$ 枚举了 $G_s$ 中的位置， $W_s$ 是对应的权重向量； $G_d$ 是3×3卷积的采样网格， $p_{di}$ 枚举 $G_d$ 中的位置， $W_d$ 是对应的权重向量。 $G_s$ 由网格样本操作实现， $W_s$ 由基于 Pytorch 的 1×1 卷积层实现（Paszke 等人，2017）。 $G_s$ 由传统 3 × 3 卷积的采样网格 $G_d$ 初始化。偏移场 $X^O$ 与输入特征图 $E^l$ 具有相同的分辨率。 $X^O$ 的通道数为2• $k^2$ ，其中k设置为3(采样格子是K的平方)。则 $p_0$ 中输出的最终值可以表示为：
Eq.()
其中 $p_{di}$ 枚举 $G_d$ 中的位置， $x_{di}$ 枚举 $X^o(p_0)$ 中的位置。

Model architecture

所提出模型的完整架构如图 7 所示。空间注意块插入到 U-Net 编码器中的每个池化层之前，除了第一个，因为编码器的较浅层通常提取低级特征。深度监督 (Lee et al., 2015) 用于将空间注意块的所有分割损失与网络的最终损失相结合。

Fig.7
为了减少复杂背景对解码过程的干扰，提出了一种跳过连接块。如图 7 所示，skip-connection 块通过将该阶段的特征图与更深阶段的高级特征图相结合，利用多尺度注意力图和高级语义信息。图 8 说明了跳跃连接块的结构。来自较深阶段的高级特征图通过上采样操作恢复到与较浅特征图相同的大小。然后，所有的特征图在通道维度上连接起来，并通过 3×3 的卷积操作转换为新的特征图。在所提出的跳过连接块的帮助下，编码器和解码器的特征之间的语义差异得到了协调。

Fig.8
可变形卷积依赖于高级特征图（Dai et al., 2017, Chen et al., 2020）。因此，当在较浅的层中使用时，它的性能很差。此外，较浅层中较大尺寸的特征图会导致大量计算。因此，在 U-Net 编码器的最深阶段使用可变形卷积块来处理不同器官的变化。具体来说，编码器中的最后两个 3 × 3 卷积层被建议的可变形卷积块替换。

Experiments and results

在相同的实验条件下，对所提出的模型和从表 2 中选出的几个最先进的模型进行了比较研究。结果证明了所提出的模型在分割精度和速度方面的优势。

Dataset

所提出的模型在公开可用的 TCIA CT 胰腺数据集（Roth 等人，2018 年）上进行了评估。选择了与肝胆胰外科相关的5个器官，包括胰腺、十二指肠、胆囊、肝脏和胃。这些器官的标准分割由 Gibson 等人执行。（2018 年）。 CT切片厚度为1 mm，分辨率为512×512。Hounsfiled Unit（HU）在[-350, 350]范围内截断，强度值线性归一化到[-1, 1 ]。最后，将 42 个标记案例分为四个子集进行四重交叉验证。

Implementation

将提出的模型与原始 U-Net 和几个改进的变体进行比较，以验证其有效性。在这些变体中，UNet + DCN 用 DCN 替换了编码器中的最后两个常规卷积（Dai et al., 2017）。 Attention U-Net (Schlemper et al., 2019) 在 U-Net 中引入了注意力门 (AG)，通过重用来自不同解码器的特征图来集成多尺度特征来突出连接结构。 BLSC (Zhang et al., 2020) 在级联 V-Net 中建立密集块级跳过连接，并将堆叠的大小内核与类似 inception 的结构相结合以学习更多模式。为了公平起见，所有模型均以 2D 版本实现。

Dice相似系数 (DICE)、Jaccard相似系数 (JSC) 和 95% 豪斯多夫距离 (HD) 用作指标。实验环境配置如表 3 所列。所有模型均基于 PyTorch (Paszke et al., 2017) 框架实现，并由 GTX1080Ti 训练。 “poly”学习率策略定义为 Eq. (8) 用于：
Eq.(8)
其中初始学习率 $l_{r0}$ 设置为 $1 × 10^{−4}$ ；功率设置为 0.9；总epoch设置为100。此外，采用Adam优化器对所有模型进行优化，其中权重衰减根据经验设置为 $1×10^{−4}$ 。为避免训练期间 GPU 内存不足，通常在多次手动调整后确定批大小。 BLSC 和其余模型的批量大小分别设置为 2 和 4。
Table3
为了应对多器官分割中类别分布不平衡的挑战，由 Dice 损失 $L_Dice$ 和交叉熵损失 $L_CE$ 组成的联合损失 $L_total$ 被构造为方程 (9) 并用于训练所有模型。
Eq.(9)
其中 λ 是 Dice 损失和交叉熵损失之间的权衡。在训练本文中的所有模型时，λ 始终设置为 1。

Results

所有型号按体积计算的DICE、JSC和95% HD的平均值分别见表4、表5和表6。为了比较所有模型的效率，所有案例的平均测试时间和模型参数的数量如表7所示。
Table4
Table5
Table6
Table7

从表 4、表 5 和表 6 可以看出，所提出的模型实现了最佳的整体分割性能。在所有模型中，所提出的模型对五个器官中的四个实现了最高的分割精度，对剩余的一个器官实现了第二高的分割精度。三个较小的器官即胰腺、十二指肠和胆囊的性能改进是显着的。与原始 U-Net 相比，该模型将 DICE 提高了 2.18%、2.61% 和 2.18%；在这三个器官的分割中，JSC 分别提高了 2.56%、2.16% 和 2.91%，并将 95% HD 降低了 4.54、4.98 和 7.93。表明该模型可以减少轮廓的偏差，大大提高多器官分割的空间重合度。

如表 7 所示，与原始 U-Net 相比，所提出的模型的参数略多（增加 7.86%）和测试时间（平均每个案例增加 1.2 秒）。然而，根据表 4、表 5 和表 6 所示的性能改进，这种适度增加的复杂度是可以接受的。综上所述，与 U-Net 及其改进的变体相比，所提出的模型在较小的额外计算成本，这使其成为临床应用中多器官分割的潜在自动方法。

Discussion

为了突出提出的模型由改进的块引起的优势，通过注意力图、编码器和解码器的特征图、偏移的可视化、困难的分割案例和改进块的消融研究进行了视觉分析。

Visual analysis of attention maps

所提出的空间注意块利用空间维度中的注意图来帮助编码器专注于目标器官的特征提取。为了演示空间注意力块的效果，每个阶段的注意力图在图 9 中进行了可视化。可以发现，随着网络层数的增加，注意力图逐渐集中在感兴趣的区域上。网络的更深阶段提取与任务更密切相关的高级特征，可以认为是粗到细分割策略的效果。

Fig.9

从表 4、表 5 和表 6 中可以看出，BLSC 与原始 U-Net 相比，在 DICE 和 95% HD 上有很大的改进，并且获得了最接近提出的模型的整体分割性能。这是因为 BLSC 还通过使用级联网络来应用从粗到细的策略。然而，级联网络导致模型参数数量和测试时间急剧增加。如表7所示，BLSC的模型参数和测试时间是U-Net的2.6倍以上。相比之下，所提出的模型只需要较少数量的额外计算并获得更好的整体性能。

所提出的空间注意块通过外部监督学习注意图，在相对位置和大小方面充分利用了器官的结构。 Attention U-Net中应用的additive attention没有利用这种结构，导致整体性能略有提高，如表4、表5和表6所示。然而，从表 7 中可以发现，Attention U-Net 在模型参数和测试时间上的增加与所提出的模型相似。

Comparison of Skip-connection structure

U-Net 的跳跃连接结构对于准确的分割至关重要，因为它通过将编码器的特征图传递给解码器来帮助恢复目标对象的细节。然而，由于编码器和解码器的特征之间存在语义差异（Ibtehaz & Rahman，2020），这种简单的连接会引入不相关的信息，并对解码过程造成干扰。为了解决这个问题，所提出的跳过连接块利用了多尺度注意力图和高级语义信息。提出的模型和 U-Net 的特征图在图 10 中被可视化以进行对比。特征图由通道尺寸的平均值表示。从编码器的特征图中可以发现，U-Net的特征图包含大量背景信息，将不必要的特征引入解码过程。相比之下，在多尺度注意力图和高级语义信息的帮助下，所提出模型的特征图突出了目标对象，极大地调和了语义差异。此外，从解码器的特征图中可以发现，所提出的模型可以更快地聚焦在目标对象上，这使得编码器能够更好地恢复目标对象的空间分辨率。
Fig.10
U-Net、UNet++ 和所提出的方法之间的跳跃连接结构的差异如图 11 所示。U-Net++ 通过使用密集连接 (Huang et al., 2017) 集成了一个编码器和多个不同解码器的特征来协调语义差异。然而，这种方法大大增加了测试时间，如表 7 所示，因为在密集连接中多次使用相同的特征图。所提出的跳过连接块通过使用更简单的结构来组合多尺度注意力图来解决这个问题。因此，它不需要太多的计算。
Fig.11

Comparison with DCN

所提出的模型将静态可变形卷积引入 DCN (Dai et al., 2017) 以在生成偏移场时获得更丰富的上下文信息。 DCN中3×3卷积的采样位置和两个可变形卷积块中的采样网格GS如图12所示。可以发现，所提出的静态变形卷积提供了一个不规则形状的感受野，并且这种程度的随着网络层数的增加，变形变得更加明显。借助形状不规则的感受野提供的更丰富的上下文，可以获得更合理的偏移场。然而，DCN中应用的常规卷积的固定感受野干扰了对不同器官形状的识别，从而降低了胰腺、十二指肠和胃轮廓的准确性，如表6所示。
Fig.12

Visual analysis of segmentation results

由于缺乏清晰的边界和纹理的相似性，空间相邻器官在多器官分割中容易混淆。为了解决这个问题，所提出的模型不仅使用注意力图来突出感兴趣区域，而且将粗分割结果作为编码器后续阶段的输入，以提供边界信息。

三个案例的分割结果如图13所示，以展示所提出的模型对相邻器官边界分割的改进。所有的分割结果都以局部放大的方式呈现。从Case1和Case 2可以发现，U-Net、BLSC和U-Net+DCN容易混淆十二指肠、胰腺和胃的相邻边界，导致分割效果不佳。 Attention U-Net和Unet++在相邻边界上的分割误差较小，但在胰腺和胃的分割结果中普遍存在欠分割。然而，所提出的模型有效地避免了边界的错误分割。即使在所有模型都发生大量错误分割的情况 3 中，由于用于定位器官边界的粗分割结果，所提出的模型将错误分割减少到最低程度。

Fig.15
Fig.15

Ablation study of improved blocks

通过消融研究讨论了每个改进块的贡献。 SAB、DCB 和 SCB 分别用于表示空间注意块、可变形卷积块和跳跃连接块。这三个块及其组合被添加到 U-net 中，分别形成不同的基于 U-net 的分割模型。这些分割模型与在 TCIA 数据集上进行四重交叉验证获得的 U-net 模型之间的 DICE 和 95%HD 的差异记录在表 8 和表 9 中，其中红色和绿色数字分别代表改进和抑制。
Table8

Fig.9
从表 8 可以发现，SAB 和 DCB 对整体 dice 的提升都比较大； SAB专注于提高胰腺和胆囊分割的空间吻合度；和 DCB 专注于改善胰腺和十二指肠。 SCB对整体DICE的提升较小，但避免了胃DICE的下降。当 SCB 与 SAB 或 DCB 一起使用时，胆囊、肝脏和胃的 DICE 改善更大，但胰腺和十二指肠的 DICE 降低。当 SAB 和 DCB 一起工作时，对所有器官的 DICE 的影响都会增加，并且对整体 DICE 的贡献最接近建议的模型。尽管与 SAB 和 SCB 协作的分割结果相比，胆囊和肝脏的 DICE 有所下降，但所提出的模型能够更大幅度地提高其他器官的 DICE 并获得最佳的整体分割性能。

从表 9 可以发现，SAB 可以显着降低整体HD95 并实现除胃外的所有四个器官的大幅降低； DCB提高了整体的HD95，导致整体边界分割精度下降； SCB 对整体的HD95提升较小，但与其他块相比，胃的边界分割精度有显着提高。在SAB之上使用SCB可以进一步降低十二指肠和胆囊的HD95，达到最接近最终模型的HD95。在 SAB 之上使用 DCB 导致整体HD95增加，但显着提高了胰腺和胆囊的边界分割精度。在 SAB + SCB 之上进一步使用 DCB 显着降低了胰腺、十二指肠和胃的 95% HD，并实现了最佳的整体边界分割精度。

Conclusion

为了获得在临床应用中更具潜力的腹部多器官分割模型，以解决复杂背景、模糊边界以及不同大小和形状所带来的困难，提出了三个基于 U-Net 架构的改进块，包括空间注意块、可变形卷积块和跳过连接块。从消融研究中可以发现，空间注意力块对于提高整体分割性能是有用的；可变形卷积块专注于改善胰腺和十二指肠的 DICE；而skipconnection块专注于提高胃的HD95。三个块的组合导致最佳的分割精度。

首先，空间注意力块通过外部监督在编码过程中生成粗分割结果，并获得更准确的注意力图以突出感兴趣的区域。与通过内相关计算注意力分布的方法相比，腹部器官的结构可以更好地为网络的更深阶段提供先验知识。其次，可变形卷积块使用静态可变形卷积为偏移场的生成提供更丰富的上下文。因此，所提出的模型可以更好地处理各种器官的不同形状和大小。最后，skip-connection块通过使用多尺度注意力图和高级语义信息避免了不相关的背景信息对解码过程的影响。

所提出的模型在 TCIA 胰腺 CT 数据集上进行评估，用于分割与肝胆胰手术相关的胰腺、十二指肠、胆囊、肝脏和胃。提出的模型与 U-Net 及其四个改进变体进行了比较，包括 Attention U-Net、U-Net + DCN、U-Net++ 和 BLSC。结果表明，所提出的模型能够以增加7.86%的模型参数为代价，有效地提高整体分割性能。在所有比较模型中，所提出的模型在五个器官中的四个中实现了最高的分割精度，在其余一个中实现了第二高的分割精度。与 U-Net 相比，平均 DICE 增加 1.65%，平均 JSC 增加 1.79%，平均 95% HD 减少 4.08。在胰腺、十二指肠和胆囊这三个较小的器官中，分割性能的提高是显着的，其中 DICE 分别提高了 2.18%、2.61% 和 2.18%，而 95% HD 分别降低了 4.54、4.98 和 7.93。通过案例研究可以证明所提出的模型在相邻器官边界分割精度方面的最佳性能。综上所述，该模型的优越性使其在临床应用中更具潜力。

所提出模型的 2D 输入未能利用 CT 序列图像的空间信息。因此，未来可以通过利用一些低成本和高效的序列分割策略来进一步改进所提出的模型。