Boundary-aware Context Neural Network for Medical Image Segmentation

Never_Jiao

已于 2022-09-27 09:34:15 修改

阅读量1.4k

点赞数

分类专栏：论文研读 DeepLearning 医学图形处理文章标签：深度学习医学图像分割

于 2022-09-26 11:43:50 首次发布

原文链接：https://arxiv.org/pdf/2005.00966.pdf

版权

DeepLearning 同时被 3 个专栏收录

65 篇文章

订阅专栏

医学图形处理

57 篇文章

订阅专栏

论文研读

56 篇文章

订阅专栏

Boundary-aware Context Neural Network for Medical Image Segmentation
发表期刊：Medical Image Analysis
发表时间：2022年
文章为本人学习过程中翻译的相关文献，非本人发表。此外，如有侵权，请联系删除博客。

Abstract

医学图像分割可以为进一步的临床分析和疾病诊断提供可靠的依据。卷积神经网络 (CNN) 显着提高了医学图像分割的性能。然而，大多数现有的基于 CNN 的方法通常会在没有准确的对象边界的情况下产生不令人满意的分割掩码。这是由于连续池化和卷积操作后上下文信息有限和判别特征图不充分造成的。由于医学图像具有高类内变化、类间模糊和噪声的特点，提取强大的上下文和聚合判别特征以进行细粒度分割在今天仍然具有挑战性。在本文中，我们为二维医学图像分割制定了边界感知上下文神经网络（BA-Net），以捕获更丰富的上下文并保留精细的空间信息。 BA-Net 采用编解码器架构。在编码器网络的每个阶段，首先提出了金字塔边缘提取模块来获取多粒度的边缘信息。然后我们设计了一个小型多任务学习模块，用于联合学习分割对象掩码和检测病变边界。特别是，提出了一种新的交互式注意力来桥接两个任务，以实现不同任务之间的信息互补，有效地利用边界信息为更好的分割预测提供强有力的线索。最后，交叉特征融合模块旨在选择性地聚合来自整个编码器网络的多级特征。通过级联三个模块，对每个阶段的更丰富的上下文和细粒度特征进行编码。对五个数据集的广泛实验表明，所提出的 BA-Net 优于最先进的方法。

Index Terms： Convolutional neural network， deep learning， medical image segmentation

Introduction

图像分割在医学图像分析中发挥着重要作用，旨在解决逐像素和细粒度的病变识别 [1] [2] 。随着医学影像技术和设备的发展和普及，超声、磁共振成像（MRI）、计算机断层扫描（CT）等成像方式为诊断和扫描各种疾病提供了一种直观有效的方法。这些技术已广泛用于日常临床研究和治疗计划。对于不同类型的临床应用，分割已被用作图像分析的关键步骤，例如 CT 图像中的肺部分割 [3] ，皮肤镜图像中的皮肤病变分割 [4] 、内窥镜图像中的结直肠癌分割 [5] 和显微镜图像中的细胞分割[6] 。准确的病灶检测对于为进一步的临床分析 [7] 、疾病诊断 [8] 、治疗计划 [9] 和预后评估 [10] 提供可靠依据至关重要。病灶分割通常需要高精度，需要对重点部位进行分割并准确提取相关特征[11] 。

随着医学影像数量的不断增加和人工智能（AI）的发展，计算机辅助诊断技术可以有效地辅助专业临床医生提高分析的准确性和效率。然而，医学图像中的自动病变（器官或组织）识别仍然是一项复杂且具有挑战性的任务[12] [13] 。首先，病变区域对于不同的个体有不同的大小和形状。对于某些疾病，明显的个体差异会增加识别的难度。图 1 显示了皮肤病变和结直肠息肉的两个例子。其次，病灶与背景的低对比度也给分割带来了很大的挑战。特别是，聚焦区域通常包含复杂的组织和器官，这使得区分这些混乱的边界像素非常困难。此外，一些伪影和成像噪声也阻碍了分割的准确性。
Fig.1
Fig.1 两个具有代表性的医学图像的示例。第一行显示皮肤镜图像中的皮肤病变，第二行显示内窥镜图像中的结直肠息肉。在每幅图像中，黄色实线是指目标边界。

在过去的几十年里，已经提出了一大群医学图像分割的自动分析算法[14]-[17] ，大致可以分为三类：基于灰度的[18] 、基于纹理的[19] ]和基于图集的方法[20] 。虽然这些方法通过提取不同种类的像素和区域特征提高了自动分割的性能，但它们仍然存在一些共同的缺陷：1）传统方法通常设计低级的手工特征并进行启发式假设，这通常会限制具有复杂场景的预测性能。此外，忽略了原始图像中丰富的可用信息。 2）对伪影、图像质量和强度不均匀性的鲁棒性较低，这在很大程度上取决于有效的预处理。

最近，由于深度学习在计算机视觉领域取得了显著成功，深度卷积神经网络 (CNN) arXiv:2005.00966v1 [eess.IV] 2020 年 5 月 3 日已成为医学图像分割的一种有前途的替代方案 [21]-[23] ，成功克服了传统手工制作功能的局限。大多数最先进的医学图像分割方法都是基于编码器-解码器网络架构，其中最具代表性的方法是 U-net [24] 和全卷积网络 (FCN) [25] 。网络框架以端到端的方式设计，具有像素级监督。在编码器阶段，输入图像通过连续的卷积操作获得高级语义特征表示。然后利用编码器网络的顶级特征在解码器网络中通过渐进式上采样（上池化或反卷积）方法生成预测的分割掩码。尽管卷积神经网络在医学图像分割任务中已经显示出其优势，但大多数现有的基于 CNNs 的方法仍然存在对象边界不准确和分割结果不理想的问题。这是由于连续池化和卷积操作后上下文信息有限和判别特征图不充分造成的。为了准确识别对象，需要同时提取和聚合高级语义特征和低级精细细节。总体而言，如何学习更丰富的上下文仍然是分割算法提高识别性能的一个挑战。

受上述分析的启发，我们提出了一种基于边界感知（BANet）的新型卷积网络框架，用于医学图像分割，它遵循经典的编码器-解码器结构。具体来说，在编码器网络的每个阶段，首先提出了金字塔边缘特征提取模块（PEE）来获取多粒度的边缘信息。对象边界定义对象的形状，从而为分割目标对象提供补充线索。为了获得更丰富的样本知识，在编码器网络的每个阶段，我们设计了一个迷你多任务学习模块（mini-MTL），并在训练期间共同监督分割和边界图预测。此外，为了充分利用来自不同任务的特征，提出了一种交互式注意（IA）。 IA利用来自不同任务的交互信息来监督目标区域识别的建模，这有助于改进分割性能。最后，通过选择性地聚合来自整个编码器网络的多级特征，提出了一个交叉特征融合模块（CFF），它进一步捕获了有价值的上下文并保留了精细的空间信息。通过级联三个模块，对每个阶段的更丰富的上下文和细粒度特征进行编码。在解码器网络中，我们整合这些特征图以依次获得最终的分割预测。最后，我们在多个公共医学图像数据集上评估我们的 BA-Net，并在它们上实现一致的性能改进。

总之，这项工作的贡献有四个:

用于 2D 医学图像分割的网络，它采用 PEE、 mini-MTL 和 CFF 模块来产生更丰富的上下文信息来指导解码器处理。
我们设计了具有嵌入式交互注意的 PEE 模块和 mini-MTL 模块，以充分挖掘同一级别的上下文特征，有效地利用边界信息为更好的分割预测提供强有力的线索。
我们构建了一个 CFF 模块，以选择性地将来自编码器网络其他阶段的跨级特征合并到当前阶段。这样就实现了不同层次特征之间的信息互补。
我们进行了全面的实验，并在包括皮肤病变分割、结直肠息肉分割、肺分割和视盘分割在内的不同任务中实现了出色的最先进的分割性能。实验结果证明了所提出方法的有效性。

本文的其余部分安排如下：第二节回顾了医学图像分割的最新发展。第三节详细介绍了我们提出的分割神经网络。在第四节中，我们评估所提出的模型，并将其与多个公共数据集上的最新方法进行比较。并对我们方法的相关分析进行了讨论。最后，第五节总结了本文并展望了未来的一些工作。

Related work

在本节中，简要回顾了用于医学图像分割的相关传统和基于 CNN 的分割方法。

Conventional Segmentation Methods

在过去的几十年中，已经引入了各种模型，包括基于灰度的模型、基于纹理的模型和基于图集的模型。早期基于灰度特征的方法主要有直方图统计、边缘检测和区域增长策略。例如，Carballido-Gamio 等人 [26] 应用具有局部亮度直方图的归一化切割从脊柱的矢状 T1 加权磁共振图像中分割椎体。钟等人[27] 提出了一种基于偏微分方程的框架，用于检测皮肤镜图像中皮肤病变的边界，其对象区域由测地线活动轮廓或测地线边缘跟踪模型分割。阮等人[28] 通过将轮廓长度添加到能量函数中，提出了用于图像分割的 watersnakes 模型。它集成了流域分割和基于能量的分割的优势。谢等人 [29] 提出了一种新颖的纹理和形状先验，通过在超声图像中应用一组用于肾脏分割的 Gabor 滤波器来提取。在 Bazin 的工作 [30] 中，他们设计了一个基于拓扑信息和大脑解剖统计图谱的分割框架，该框架限制了预测和图谱之间的拓扑等效性。虽然这些模型如阈值和区域增长方法能够实现，但性能受到限制，因为阈值和区域划分标准的选择受图像强度或纹理信息的影响很大。此外，用于分割的手工特征在很大程度上依赖于研究人员的经验。

CNN-based Segmentation Frameworks

近年来，深度卷积神经网络已成功应用于计算机视觉中的各种问题，使用编码器解码器框架进行图像分割任务显示出惊人的收益[31]-[33] 。在编码器网络中，图像内容由从低级到高级的多个卷积层编码。在解码器部分，预测掩码是通过多个上采样（uppooling 或 deconvolutioanl）层获得的。特别是，图像特征表示和上下文提取对于分割任务非常重要。例如，陈等人[34] 提出了一个名为 DeepLab 的分割框架，该框架定制了一个多孔的空间金字塔池化模块，通过并行扩张卷积对多尺度上下文信息进行编码。赵等人 [35] 采用具有多个池化尺度的金字塔池化模块来捕获编码器网络中的多尺度上下文。李等人 [36] 提出了一种新的基于残差学习的用于皮肤病变分割的密集反卷积网络。它通过密集的反卷积层、链式残差池和辅助监督来捕获用于分割任务的图像的细粒度多尺度特征。薛等人 [37] 提出了一种端到端的对抗性重要神经网络，它具有用于医学图像分割的多尺度 L1 损失函数，它强制学习全局和局部特征。周等人 [38]定制了一个协作网络架构，通过带有注意机制的半监督学习来共同提高疾病分类和病变分割的性能。陈等人 [39]提出了一种无监督的域自适应方法，有效地解决了域移位问题，实现了跨模态图像分割。总体而言，图像上下文的有效提取对于提高分割性能很重要。

Methodology

在本节中，我们将描述所提出的边界感知上下文神经网络的构建以及三个核心模块（即 PEE、mini-MTL 和 CFF）的设计方法。所提出的方法的细节介绍如下。

Overview

如图 2 所示，所提出的 BA-Net 具有编码器解码器架构设计，并以 ResNet [40] 作为主干开始（在 ImageNet [41] 上进行预训练）。在编码器网络中，首先移除了 ResNet 的最后一个全局池化层和全连接层，仅保留一个卷积和四个残差卷积块用于主要特征提取。不失一般性，对于输入图像，我们将四个残差块的输出特征表示为 $Fi, i∈\{1, 2, 3, 4\}$ 。为了进一步扩大感受野，ResNet 中的最后两个块使用 atrous 卷积（atrous rate = 2）进行修改，并通过移除我们工作中的池化操作来保持与前一个块相同的空间分辨率。因此，每个块的输出大小是输入图像的 1/4、1/8、1/8 和 1/8。此外，在最后一个残差块的顶部特征图上采用了一个多孔的空间金字塔池（ASPP）模块[34] ，用于捕获和编码多尺度特征。 ASPP 模块由四个具有不同空洞率的并行空洞卷积和一个全局平均池组成。 ASPP 的输出特征通过上采样和一个 1×1 卷积（有 256 个通道）连接起来，进一步整合和压缩特征图。为了产生更丰富的上下文信息来指导解码器处理，我们定制了三个模块来充分挖掘同一级别的特征，并在编码器网络的每个阶段聚合来自不同级别的其他特征。金字塔边缘提取模块（PEE）首先被提出用于聚合具有当前级别的多个粒度的边界信息。然后采用迷你多任务学习模块（miniMTL），利用相关边界检测和分割任务之间的潜在相关性和互补特征来获取更丰富的知识。最后，mini-MTL进一步学习模块的特征图实现了不同层次之间的互补，并通过交叉特征融合模块（CFF）细化了高层特征和低层特征。最后，在解码器部分，我们通过聚合来自 ASPP 模块的输出特征图并依次编码每个阶段的特征来获得解码特征 $Di, i ∈ \{1, 2, 3, 4\}$ 用于最终的分割预测。
Fig.2
Fig.2 所提出模型的框架。在编码器网络的每个阶段，我们首先通过金字塔边缘提取模块（PEE）获得多粒度边缘特征。然后迷你多任务学习模块（miniMTL）联合学习分割对象掩码并检测病变边界。最后，来自整个编码器网络的多级特征通过交叉特征融合模块（CFF）有选择地聚合，进一步捕获有价值的上下文并保留精细的空间信息。

Pyramid Edge Extraction Module

Fig.3
Fig.3 提出的金字塔边缘提取（PEE）模块的结构。

病变区域的边缘提供了有关目标对象位置的重要信息。然而，病变区域的边界通常是复杂多样的。为了获得稳健的边界信息补充，我们设计了一种简单有效的金字塔特征提取方案，用于在编码器网络的每个阶段挖掘多粒度边缘特征。如图 3 所示，首先，我们使用 1 × 1 卷积从主干每个阶段的最后一个残差块中压缩特征图 $Fi, i ∈ \{1, 2, 3, 4\}$ ，然后将它们用作PEE 模块的输入。它可以定义如下：
Eq.(1)
其中 $F'_i$ 表示每个残差块的缩减特征图，‘F’ 是 1×1 卷积的函数， $θ_i$ 表示各自的参数。我们通过从局部卷积特征图中减去不同大小的平均池的值来获得多粒度边缘特征。不失一般性，我们定义了 S 个池化操作
Eq.(2)
其中 $F^{(s)}_{i, P}$ 表示当前第 $i$ 阶段进行第 $s$ 池化操作的边缘特征， $avg_s$ 是对应的平均池化操作。为了整合获得的金字塔边缘特征，我们将它们与当前阶段的特征连接在一起，并使用 1×1 卷积操作将它们合并。
Eq.(3)
其中 $C$ 是指连接过程。 $F_{i,P}$ 是编码器网络当前阶段 PEE 模块的输出特征图。 $θ_{i,P}$ 表示相应的参数。这样的多粒度边缘特征提取设计为有效增强相应层级的表示能力提供了有力的途径。通过提取和融合不同粒度的边界信息，有效改善边缘特征，抑制噪声。随后，输出图被馈送到迷你多任务模块以促进提取更精细的特征。

Mini Multi-Task Learning Module

自然地，来自对象边缘的附加知识有助于精确识别目标的形状，语义分割和边缘检测具有很强的互补性。基于这个想法，我们提出了一个嵌入每个阶段的迷你多任务学习模块（mini-MTL），用于在不引入太多参数的情况下联合学习分割对象掩模和检测病变边界。 mini-MTL 模块旨在通过利用这些相关任务之间的潜在相关性来提高性能。图 4 显示了我们提出的 mini-MTL 网络的架构。每个多任务网络包含两个组件：特定任务分支和交互式注意力层。具体来说，每个分支都有两个卷积层和一个上采样层。卷积层用于编码任务相关的特征，上采样层用于获得相应的预测掩码。在第 $i$ 阶段，PEE 模块的特征图 $F_{i,P}$ 作为两个子网络的输入，用于进一步同时提取与任务相关的特征。

Fig.4
Fig.4 提出的迷你多任务学习（mini-MTL）模块的设计，该模块由两个特定任务分支和一个交互式注意力层组成。

Eq.(4)
其中 $F^{(l)}_{i,\xi}$ 和 $F^{(l)}_{i,S}$ 表示从边缘子网络和分割子网络的第 $l$ 个卷积层提取的特征图， $l ∈ \{1, 2\}$ 。特别地， $F^{(0)}_{i,\xi}$ 和 $F^{(0)}_{i,S}$ 表示 PEE 模块的特征 $F_{i,P}$ 。 ‘F’ 是 3×3 卷积的函数，参数分别为 $θ^{(l)}_{i,\xi}$ 和 $θ^{(l)}_{i,S}$ 。交互注意力（IA）被设计在第一个卷积层中，用于挖掘来自不同任务的交互信息。如图 5 所示，为了整合来自其他任务的有效信息，我们设计了一种简单而有效的交互式注意力整合方法，为各个区域分配不同的权重。具体来说，以边缘特征集成为例，我们首先使用 sigmoid 函数生成一个权重掩码，该掩码指示当前边缘特征图 $F^{(1)}_{i,\xi}$ 的重要位置。然后通过从一中减去权重掩码来生成反向注意力权重。最后，我们可以通过元素乘积操作选择性地将有用信息从分割特征发送到当前边缘特征 $F^{(1)}_{i,\xi}$ 。同样，分割分支上的特征集成与此类似。因此，整个交互过程可以表述为：
Eq.(5)

Fig.5
Fig.5 提出的交互式注意方法的图示。该图显示了 IA 边缘特征集成的示例。

其中 σ 表示生成过滤器掩码的 sigmoid 激活函数。 ⊗ 代表元素乘积。所提出的 IA 模块基于门控机制，无需附加参数，通过这种方式，来自不同任务的信息由 IA 模块有效传递。此外，通过注意力可以将有用信息调整到正确的位置，也可以同时在发送方和接收方双方抑制无用信息。在两个卷积层和交互层之后，我们通过聚合这两个任务的特征得到了更丰富的当前阶段的上下文表示 $F_{i,M}$ ：
Eq.(6)
其中’F’和 C 分别指的是 1×1 卷积和连接操作。 $θ_{i,M}$ 表示参数。为了有效地进行多任务学习，我们以端到端的方式与 IA 模块共同监督和学习两个分支。这里，边缘图和分割图都是对象轮廓和对象类的二进制表示。我们期望 mini-MTL 模块的边缘和分割预测的输出通过最小化损失分别逼近真实掩码（表示为 $G_{\xi}$ 和 $G_{S}$ ）：

Eq.(7)
其中 BCE (·, ··) 表示具有以下公式的二元交叉熵损失函数：
Eq.(8)
其中 $P_j$ 和 $G_j$ 分别表示预测边界(分割)图 $P_{i,\xi}$ ( $P_{i,S}$ ), 对象的ground truth掩码边界（分割） $G_{\xi}$ ( $G_{S}$ ) 的第 j 个像素。 N代表像素数。因此，第 i 个 mini-MTL 模块中的总损失可以表示为:
Eq.(9)
这种联合学习有助于保留对象边界附近的精细细节。有了这个模块，BA-Net 能够在当前阶段生成更准确和更好的边界粘附特征。

Cross Features Fusion Module

在编码器网络中，低层特征具有丰富的空间细节，高层特征具有更丰富的语义信息[42] 。为了利用空间结构细节和语义信息的互补性，我们提出了交叉特征融合模块（CFF）来选择性地聚合不同层次的特征并细化高级和低级特征图。如图 6 所示，对于第 i 个特征映射 $F_{i,M}$ ，CFF 通过以下注意机制自适应地从多个输入特征 $F_{j,M}, j ≠ i$ 中选择互补分量：
Eq.(10)
其中 σ 表示 sigmoid 激活函数。 ⊗ 表示元素乘积。因此，CFF模块有效地整合了不同层次的信息，可以有效避免引入过多的冗余信息。因此，我们可以通过三个用于解码器过程的串联模块，获得丰富的上下文特征 $F_{i,C}$ ，保留丰富的细节以及每个阶段的语义信息。

Fig.6
Fig.6 提出的交叉特征融合（CFF）模块的设计。

Decoding and Optimization

通过在编码器网络的每个阶段级联三个模块，对每个阶段的更丰富的上下文和细粒度的特征进行编码。在解码器网络中，我们通过聚合来自 ASPP 模块的输出特征图 $F_A$ 并依次编码每个阶段的特征来获得解码特征 $Di, i ∈ \{1, 2, 3, 4\}$ 用于最终的分割预测：
Eq.(11)
其中 $D_i$ 表示每个阶段的解码特征，'F’是1×1卷积的函数， $θ_{i,D}$ 表示解码器部分的各自参数。

整个网络的监督采用标准的二元交叉熵损失来最小化解码器网络的输出与ground truth之间的误差。在端到端训练过程中，总损失函数定义为多任务模块的联合损失如下：
Eq.(12)
其中 $L_D$ 表示解码器损失， $λ_i$ 表示平衡参数。 $λ_i$ 根据经验设置为 1.0。边界信息通过损失参与更新和指导最终分割预测的生成，使整个网络感知对象边界并细化结果。

Experiments

Materials

为了评估我们方法的有效性，我们对五种不同模式的医学图像数据进行了实验，包括皮肤镜图像、内窥镜程序图像、X 射线图像和视网膜眼底图像。这些数据集的详细信息简要介绍如下：ISIC-2017 [43] 包括一个训练集，其中包含 2000 张带注释的皮肤镜图像和总共 600 张用于测试的图像。图像尺寸范围从 540×722 到 4499×6748。 Kvasir-SEG [44] 由 1000 个息肉图像及其相应的地面真实息肉掩模组成，由内窥镜专家注释。 CVC-ClonDB [52] 包含来自 15 个大小为 574×500 的短结肠镜视频序列的 380 个结肠镜图像。 SZ-CXR [45] 、 [46] 由中国深圳第三医院收集。该数据集包含 566 张带有相应注释的 X 射线图像。 RIM-ONE-R1 [53] 由 169 个完整的视网膜眼底图像组成，这些图像已由五位不同的专家注释。

Reference Model

在我们的工作中，我们将我们提出的 BA-Net 与之前六种最先进的图像分割方法进行了比较，包括 FCN [25] 、U-net [24] 、MultiResUNet [47] 、AG-net [48] 、 CE-Net [23] 和 Deeplabv3 [34] 。为了公平比较，这些方法的分割图由作者发布的原始代码生成或由他们直接提供。此外，所有实验都使用相同的数据预处理，并且使用相同的评估指标评估预测的分割掩码。

Evaluation Metric

为了量化评估所提出的 BA-Net 的性能，本文计算了五个被广泛接受的医学图像分割任务指标作为评估标准。它们包括骰子相似系数 (DI)、Jaccard 指数 (JA)、准确度 (AC)、灵敏度 (SE) 和特异性 (SP)。详细定义如下：
Eq.(13)
其中TP、TN、FP和FN分别代表真阳性、真阴性、假阳性和假阴性的数量。它们都是在像素级别上定义的。在这些指标中，JA主要反映了估计和ground-truth mask之间的重叠像素，这是分割任务最重要的评估指标。在我们的工作中，我们主要按 JA 对性能进行排名。

Implementation Details

Training setting: 所提出的框架是基于 Pytorch 1.0 框架实现的，并使用一个 NVIDIA TITAN X GPU 进行训练。在模型中，我们使用标准随机梯度下降优化器以 0.9 动量训练整个端到端网络。编码器网络的主干基于在 ImageNet 上预训练的 ResNet-101。选择 ReLU 作为默认激活函数。我们将初始学习率设置为 $10^{-4}$ ，并对所有类似于 [34] 的实验采用“poly”学习率策略。每次迭代后，学习率乘以 $\frac{iter}{totaliter})^{0.9}$ ，迭代器最终在 200 个 epoch 处终止。将所有的训练数据分成mini-batch进行网络训练，训练阶段mini-batch大小设置为8。在编码器网络的每个阶段，在 PEE 模块之前，首先通过卷积操作将所有特征图减少到 128 个通道。在我们的 PEE 模块中，我们对前两个块使用 5×5 和 7×7 平均池化操作，在后两个块中使用 3×3 和 5×5 池化内核。所有这些边缘特征图通过填充操作保持相同的大小。最后，解码器的输出直接被双线性插值到与输入图像相同的大小。
Data preprocessing: 为了增强训练样本的多样性，在训练模型之前使用了几种常见的数据增强和采样策略。为了公平起见，所有模型的输入预处理保持不变。输入图像被随机翻转、旋转和中心裁剪以执行数据增强。裁剪中使用的比例为 50% 到 100%，原始图像的随机旋转范围为 -10 到 10 度。我们的工作中采用了具有预设概率的水平和垂直翻转操作。并且由于数据集中图像的大小不同，所有输入图像都统一调整为 256 × 256 的分辨率用于训练和测试。

Comparisons with the State-of-the-Art

Dermoscopy image dataset: 皮肤镜图像中的皮肤病变分割对于自动化黑色素瘤诊断非常有用，特别是对于早期保护和治疗。如表 I 所示，与其他最先进的方法相比，我们的 BA-Net 达到了 88.2% 的最高 DI 和 81.0% 的最佳 JA。至于 JA，与最好的竞争对手 CE-Net 相比，我们的方法在测试集上从 78.5% 显着提高到 81.0%。与经典 FCN 和 U-net 的结果相比，我们的工作在度量 JA 上超过了 5.8% 和 4.5%。此外，与最新的 MultiResUNet 和 AG-net 网络相比，我们的方法分别获得了大约 4.2% 和 4.1% 的增益。上述结果表明，级联三个模块的方案设计有效地提取了更丰富的上下文和细粒度特征用于病变识别。
Table1
我们还将我们的 BA-Net 与提交给 ISIC-2017 皮肤病变分割挑战的前五种方法进行了比较。如表 II 所示，我们的方法在基准测试中取得了最佳性能，在 JA 上以 4.5% 的改进超过了竞争的最佳结果。此外，我们还报告了其他五种最近发表的在同一测试集上进行皮肤病变分割的方法。可以观察到，与竞争性已发布的基准相比，我们的 BANet 具有明显的优势。特别是，BA-Net 在 JA 上的性能比最先进的 MB-DCNN 高 0.6%。与使用三阶段相互引导模型的 MB-DCNN 相比，我们在简单统一的分割框架中取得了出色的性能。
Table2
Endoscopic image dataset: 息肉是结直肠癌的前身，因此早期治疗可以帮助临床医生进行风险筛查和进一步诊断。与上述最先进的方法相比，我们的方法还在 Kvasir-SEG 和 CVC-ColonDB 数据集上实现了最佳分割性能。表一显示了它们之间的比较。对于 Kvasir-SEG 数据集，我们将 Kvasir-SEG 划分为 800 个训练图像和 200 个测试图像。我们的 BA-Net 获得 86.1% 的 JA，比第二个竞争对手 CE-Net 和 Deeplabv3 高出 2.6%。 CVC-ColonDB 数据集中的图像来自 15 个不同的视频，其中 304 个图像用于训练，76 个图像用于测试。从表中，我们可以发现我们的方法在数量上始终超过其他最先进的架构，并且在息肉分割方面表现出更多的性能提升。这意味着我们的方法实现了同级特征的有效提取和跨级特征的整合，从而提高了分割性能。

X-ray image dataset: 我们应用我们的 BA-Net 在 2D X 射线图像中分割肺器官。在这个数据集中，我们将原始的 566 张图像随机分成 452 个训练样本和 114 个测试样本。详细的实验结果如表 I 所示。BA-Net 在大多数指标上都达到了最先进的性能。所提出的方法达到了 92.8% 的整体 JA。与经典FCN的结果相比，JA增加了5.9%。上述结果表明我们的模型具有三个模块，大大提高了分割性能。

Retinal fundus image dataset: 我们报告了我们的视网膜眼底图像视盘分割方法的性能。来自 RIM-ONE-R1 数据集的 169 张图像以 8:2 的比例随机分成训练集和测试集。RIM-ONE-R1 数据集包含来自五位专家的五个独立注释。我们将测试结果与相应的五个专家分数进行比较，如表 III 所示。从表中，我们可以观察到我们的 BA-Net 在 JA 中的单次评估和整体平均均取得了最好的结果。它进一步支持我们提出的 PEE、mini-MTL 和 CFF 模块有利于医学图像分割。
Fig.3
Qualitative Evaluation: 图 7 显示了我们的 BA-Net 以及其他最先进的方法生成的分割掩码的一些示例。我们可以看到，通过所提出的方法可以很好地突出对象，准确的位置和细节。同时，相似的背景区域和噪声被更彻底地抑制。从图 7 中的 1 到 4 行，一些方法只分割了部分病灶，而许多其他非前景信息也得到了响应。相比之下，我们的方法表现得非常好。在第 4 行和第 5 行，在处理相似颜色的病灶边界时，其他方法对目标病灶有不同程度的反应，而我们的方法可以得到清晰的结果。从图 7 中的第 6 行到第 9 行，我们可以观察到许多方法通常在整体上提取粗略的区域映射，但由于背景噪声或图像对比度较低，目标区域的细节会丢失。在我们的方法中，借助有效的上下文表示，可以更准确地定位目标区域。总体而言，结果表明，所提出的 BANet 有效地挖掘了同一级别的上下文，并利用不同级别特征之间的潜在相关性来捕获更丰富的特征嵌入，这表明了处理精细结构和纠正错误的能力。
Fig.7
Fig.7 在不同的医学图像数据集上与六种最先进的方法进行视觉比较。

Ablation Study

为了验证 BA-Net 不同组件的有效性，在 ISIC-2017 和 Kvasir-SEG 基准数据集上进行了几个消融实验。烧蚀结果示于表IV中。
Table4
**Effectiveness of the BA-Net:**所提出的 BA-Net 在编码器网络的每个阶段都设计了三个级联模块，用于提炼和净化上下文，从而实现了出色的分割性能。为了证明有效性，我们分别通过删除每个模块（表示为“ours w/o PEE”、“ours w/o MTL”和“ours w/o CFF”）来比较相应的结果。

如表IV所示，我们可以观察到设计的三个模块与“基线”相比大大提高了分割性能。对于这两个数据集，JA 分别增加了 3.1% 和 2.6%，这表明这些模块对分割的有用性。从我们的模型中删除 PEE 模块后，由于缺乏利用多粒度边缘特征的能力，两个数据集的 JA 分别下降了 1.0% 和 1.6%。同样，在不使用mini-MTL模块的情况下，模型利用边界信息的互补性进行分割的能力也大大减弱。这在 JA 的两个数据集的变化上也有明显的体现，分别下降了 0.8% 和 1.3%。与仅使用 PEE 和 mini-MTL 模块的模型相比，我们可以发现 CFF 的应用在这两个任务中分别产生了 1.1% 和 0.7% 的 JA 改进。这表明CFF有效地桥接了不同层次的特征，并有效地将它们整合起来进行当前层次的特征提取。事实上，我们发现与“基线”相比，两个模块的任意组合也带来了很大的收益。当网络使用 PEE 和 mini-MTL 模块时，当前级别的上下文被充分利用和挖掘。 CFF 模块用于在 PEE 和 mini-MTL 模块之后从跨级别进一步整合细化的上下文信息。从表四可以看出，通过充分提取各层级的特征，合理整合不同阶段的信息，我们的模型取得了优异的效果。

Effectiveness ofthe Interactive Attention: 此外，我们还研究了 mini-MTL 模块中交互式注意力的有效性。我们进行了去除 mini-MTL 模块的 IA 的实验，并将其与我们的原始模型进行比较。如表四所示，对于无交互模型，它在两个数据集上的 JA 得分较低，JA 分别下降了 0.7% 和 1.1%。这意味着边缘子网络和分割子网络之间的 IA 在为最终分割预测生成更好的表示方面起着重要作用。正如我们所期望的，IA 充分考虑了 mini-MTL 模块中不同分支的影响，并有效地将消息传递给彼此。

Visualization comparison of ablations: 图 8 显示了不同消融的分割性能。我们发现我们的方法在不引入背景区域的情况下可以更好地突出对象，并且我们的可视化结果优于 w/o PEE、w/o MTL、w/o CFF 和 w/o IA。具体来说，基线模型可以在整体上提取粗略的区域轮廓。但对于一些对比度低的图像和边界不清晰的图像，其分割精度并没有差强人意。从模块消融与我们的比较来看，在PEE的帮助下，我们的模型获得了更丰富的边界信息引导，mini-MTL模块充分利用了边界信息对分割的互补性。同时，CFF 模块提供了跨层次的特征交互，使模型能够在每个阶段捕获更多的整体上下文。此外，mini-MTL 中的 IA 增强了来自两个分支的有效信息的传递。这进一步表明，我们工作中设计的三个模块的引入有效地提高了分割性能。

Fig.8
Fig.8 在 ISIC-2017 和 Kvasir-SEG 数据集上使用我们模型的不同消融推断出的分割掩码。（不带 PEE：不带 PEE 模块，不带 MTL：不带 mini-MTL 模块，不带 CFF：不带 CFF 模块，不带 IA：在 mini-MTL 模块中不带 IA。）

Conclusion

在本文中，我们提出了一个边界感知上下文神经网络，它为医学图像分割产生了更丰富的上下文信息。在我们的工作中，提出了三个级联模块。在编码器网络的每个阶段，金字塔边缘特征提取模块提取多粒度边缘特征，然后迷你多任务学习模块通过多任务学习和设计的交互式注意力方法有效地补充和丰富边界检测分支的上下文。最后，网络通过交叉特征融合模块自适应地整合不同层次的特征图。通过级联三个模块，可以获得每个阶段的更丰富的上下文和细粒度的特征。对五个公开可用的数据集进行了广泛的比较评估，验证了所提出方法的优越性。基于我们工作的出色表现，我们将在未来扩展我们的 BA-Net 以支持 3D 医学图像分割任务。