Image segmentation of nasopharyngeal carcinoma using 3D CNN with long-range skip connection and mult

最新推荐文章于 2021-10-15 16:23:17 发布

Never_Jiao

最新推荐文章于 2021-10-15 16:23:17 发布

阅读量580

点赞数 1

分类专栏：论文研读医学图形处理 DeepLearning 文章标签：深度学习鼻咽癌肿瘤分割医学图像处理

原文链接：https://link.springer.com/content/pdf/10.1007/s00500-020-04708-y.pdf

版权

DeepLearning 同时被 3 个专栏收录

65 篇文章 3 订阅

订阅专栏

医学图形处理

57 篇文章 34 订阅

订阅专栏

论文研读

56 篇文章 22 订阅

订阅专栏

Image segmentation of nasopharyngeal carcinoma using 3D CNN with long-range skip connection and multi-scale feature pyramid
基于远程跳跃连接和多尺度特征金字塔的三维CNN鼻咽癌图像分割
在这里插入图片描述
中科院SCI分区：三区
期刊：Soft Computing

Abstract

鼻咽癌（NPC）是鼻咽部最常见的癌症之一。NPC的结构分析可以为治疗方法提供重要的见解。然而，在图像中手动标记NPC的边界是繁琐，耗时且容易出错的。有必要使用基于计算机的自动分割算法来准确定位NPC。然而，由于受试者鼻咽结构的高度变化（形状和大小），这仍然是一项具有挑战性的任务。此外，鼻咽区域较小，这导致前景和背景类别的严重不平衡。在本文中，我们提出了一种具有远程跳跃连接和多尺度特征金字塔（SFP）的3D卷积神经网络，用于NPC图像的分割。与传统的残差块跳跃连接只考虑同一卷积层之间的特征传递和特征融合不同，该方法将网络中第一次卷积后的原始特征进行远距离跳跃连接，采用元素求和的方式传递到每个下采样阶段，有效地提高了低层特征的重用性，解决了梯度消失和爆炸的问题。多尺度特征金字塔具有不同的Atrus比率，适用于不同大小的图像，以学习多尺度特征和关于NPC的分层上下文信息。为了加快网络的收敛速度，我们使用深度监督来生成三个辅助分割图，并将加权损失合并到目标函数中。并对这些辅助分割图进行融合，细化最终的分割结果。在我们的实验中，使用5次交叉验证对所提出的网络在120名临床患者的3D磁共振成像(MRI)图像上进行了训练和测试。作为评价指标的平均Dice相似系数和平均对称表面距离分别为0.737和1.214 mm。这表明，就结果而言，我们的方法优于五个最先进的网络，相当于一位经验丰富的医生的判断。

Keywords

NPC、3D CNN、Long-range skip connection、Multi-scale feature pyramid、Deep supervision

Introduction

鼻咽癌(NPC)是世界上最常见的恶性肿瘤之一，常发生在鼻咽腔的顶壁和侧壁。鼻咽癌是耳鼻咽喉科所有恶性肿瘤中发病率最高的，占所有癌症所致疾病的1%。死于鼻咽癌的人数从1990年的4.5万人增加到2010年的6.5万人(Lozano2012)。每年约有80万人被诊断出患有这种癌症(Geneva2012)。与其他类型的肿瘤相比，鼻咽癌往往具有更复杂的组织结构，鼻咽癌的形状和大小变化很大，而且强度不均匀，这给医生对肿瘤的正确定位带来了挑战。因此，需要一种分割方法来解决这一问题。
磁共振成像(MRI)为肿瘤的分割和分期提供了一种获得医学成像模式的非侵入性手段。磁场和无线电波被用来为病人身体的不同部位创建图像。通过比较正常组织和病变组织的同一部位的图像，可以诊断和评估某些疾病(Huang et al.2015)。传统的鼻咽癌诊断有局限性，因为临床医生需要依靠医学专业知识来手动标记肿瘤的边界。由于鼻咽部的图像是三维(3D)MRI图像，手动注释基本事实对于医生来说是繁琐、耗时且容易出错的。临床医生使用计算机辅助诊断来提高治疗效率和肿瘤定位的准确性。

医学图像分割是诊断疾病的重要方法。近年来，人们提出了各种深度学习分割方法。作为计算机视觉中最成功的方法之一，卷积神经网络（CNN）已被广泛用于图像分割。它代表了一类深度学习算法。CNN的不同结构之间的相似性是由于通过级联数十或数百个卷积层来提取高阶和复杂的语义特征。与传统算法相比，CNN是一种数据驱动的端到端算法，可以自动学习有利于任务的特征。卷积层中的权重可以通过梯度下降法找到最优值来自动适应目标问题。这降低了为不同任务开发不同算法的成本。然而，CNN的训练阶段需要大量的手动注释训练样本。为了评估医学限制的分割算法，许多研究人员试图整合CNN来分析医学图像。例如，胸部CT筛查可以检测结节（Shen et al.2015），智能手机相机可用于诊断皮肤癌（Esteva等，2017）。

由于鼻咽癌组织结构MRI图像的特殊性，成功的CNN算法不能直接应用于鼻咽癌分割任务，这也是一个巨大的挑战，原因如下：(1)不同患者的肿瘤在形状、大小等方面存在明显差异。(2)对于MRI图像，NPC与背景的边界对比度通常比较模糊。鼻咽癌的诊断和治疗对于有经验的医生来说，准确地标记肿瘤的边界是很有挑战性的。图1显示了医学专家对两名患者的鼻咽癌肿瘤进行分割的示例。红色和绿色边框表示由专家进行的分割，蓝色边框表示它们之间的重叠。这两位专家注释的肿瘤区域并不完全相同。(3)NPC只占整个形象的一小部分。由于鼻咽癌MRI图像的前景和背景不平衡，给网络正确分割肿瘤的位置带来了挑战。(4)癌症病例训练样本缺乏。对于深层CNN，由于训练样本的缺乏，导致网络在训练阶段过拟合，不能正确定位NPC在测试样本中的位置。

图1两位医学专家对NPC肿瘤的注释示例。红色和绿色边框表示带注释的零件。蓝色边框表示注释的相同部分（在线彩色图形）

为了使计算机辅助诊断能够自动准确地定位NPC，我们提出了一种具有远程跳跃连接，多尺度特征金字塔（SFP）和深度监督以及辅助分割图的3D CNN。我们的方法为该领域的研究做出了以下贡献：（1）将卷积块中提取特征的方法调整为具有远程跳跃连接和多尺度特征金字塔的残差块的结构。在下采样阶段，第一次卷积的低级特征通过远程跳跃连接传递到每个残差块的末端，并使用步幅卷积和元素加和来完成特征融合。（2）使用具有不同atrous的特征金字塔从具有低级特征的融合特征中提取多尺度特征。然后，具有从特征锥体信息的多尺度特征被传递到上采样阶段。（3）使用深度监督生成辅助分割图并在每个上采样阶段融合以细化分割结果并加速网络的收敛，并且根据不同的权重将各自的损耗添加到目标函数中。我们在120例鼻咽癌临床患者的三维MRI样本上测试了我们的方法。实验结果证明了我们方法的有效性。

Related work

深卷积神经网络(DCNN)最早由Dan等人(2012)应用于医学图像分割。他使用2D CNN对从堆叠电子显微镜(EM)获得的图像进行分割。该网络通过滑动窗口应用于每个切片的每个像素，以提取像素周围的像素块。这种方法存在两个问题：一是计算冗馀，效率不高；二是网络无法获得全局特征。
2015年，Ronneberger等人(2015)提出将U-Net网络结构应用于EM图像分割，取得了令人印象深刻的结果。U-Net的一个重要组件是跳跃连接。该网络在下采样阶段对给定的图像进行卷积，以提取与反卷积层中的特征图相连的多尺度图像特征，并在上采样阶段进行反卷积，以将特征图恢复到图像的原始分辨率。这种具有横向连接的特征地图的网络增强了图像低层特征的传输和重用。在最后的上采样阶段，大小为1×1×1的卷积滤波器处理该层的输出以生成最终的分割结果。

2016年，圣伊塞克等人(2016)和Milletari等人(2016)将2D UNet扩展到3D。原始结构仅适用于切片较小的2D图像和小3D图像。然而，大多数3D医学图像(如大脑和其他器官的图像)在每个维度上都很大。在这种情况下，直接按层使用2D图像既费时又低效，而且容易忽略全局特征。与圣伊塞克等人(2016)提出的三维UNet进行了比较，Milletari等人(2016)对原U-NET进行了修改，增加了残差块。这些块使用特殊的跳跃连接和逐元素求和，以解决深度神经网络中梯度消失的问题。然而，U-Net(Ronneberger等人，2015年)、3D U-Net(圣伊塞克等人，2016年)和V-Net(Milletari等人，2016年)之间有几个重要的相似之处。首先，这三个网络的输入不是由小块图像组成，而是由整个图像或更大部分的图像组成。其次，由于缺乏训练样本，这三种网络都使用了图像增强技术(如移动、旋转和缩放图像，以及添加灰度值)来使网络更加通用。

Long等人使用完全卷积神经网络(FCN)创建不同尺度和分辨率的分割图，以降低最终分割图的粗糙度(Long等人，2017年)。这在产生令人满意的分割结果方面已经被证明是有效的。基于FCN，2017年，DeepLab(Chen等人，2017)使用完全连通的条件随机场来细化最终的分割结果，在VOC2012公共数据集上产生了更好的分割结果。窦等人(2016)省略了UNet的上采样阶段，生成不同分辨率的分割图，通过反卷积和元素求和得到最终的分割图。将与不同分辨率下的分割图相关的损失加权到最终目标函数中。DenseNet(Huang等人，2016)在多个密集块中也有跳跃连接。在每个块中，卷积层通过前馈传播与其他层连接，增强了图像中的特征传递和特征重用。DenseNet和U-Net的相似之处在于，前者使用跳跃连接来重用密集块中的特征，而后者使用块到块跳连接来增强网络中的梯度流，并融合不同块中的低层特征。

Lin等人(2019年)使用深度3D CNN构建了一个人工智能(AI)轮廓工具，以自动为NPC绘制原发性大体肿瘤体积(GTV)轮廓。基于四个MRI脉冲序列，使用3DCNN提取了复杂GTV的代表性特征。Ma等人(2019年)设计了一种多模态卷积神经网络(M-CNN)来联合学习多模态相似性度量和配对CT-MR图像的分割。它们将单模态CNN(S-CNN)和M-CNN提取的高层特征相结合，为每个模态形成一个组合CNN(C-CNN)，能够进一步利用不同模态的互补信息，提高分割性能。赵等人(2019)利用带有辅助路径的全卷积网络实现了PET-CT图像上NPC的自动分割。在训练期间，他们通过在网络中添加辅助路径来实施深度监控技术，以提高网络的性能。

综上所述，各种DCNN已被用来解决医学图像分割中遇到的挑战，如内存有限、训练样本不足和严重的类不平衡。在处理第一个问题时，研究人员将图像分成多个小区域，并将不同区域的分割结果拼接在一起，或者缩放训练样本的分辨率。图像增强技术可以有效地解决训练样本稀缺的问题。对于类别不平衡，研究人员使用加权的交叉熵客观函数和衡量标准，如字典相似度或贾卡德指数。

Method

Network Architecture

提出的网络结构如图2所示，包括远程跳跃连接、多尺度特征金字塔和深度监督。在每个下采样阶段，长距离跳跃连接将原始特征从第一次卷积携带到残差块的末尾，以增加低层特征的重用性，这对于医学图像分割任务是非常重要的。通过元素求和得到融合特征后，构造不同atrous速率下的atrous卷积形成特征金字塔，提取多尺度信息和分层上下文信息，这在分割任务中也得到了广泛的应用。为了保持网络中的梯度流并改善分割结果，在上采样阶段将不同残差块中的信息合并。在每个上采样阶段，生成带有三个辅助分割图的深度监督，并将辅助分割图各自的加权损失加到目标函数中。然后，我们使用插值和逐元素求和的方法对这些辅助分割图进行融合，以细化最终的分割结果。

图2提出的网络结构。为简单起见，此处显示的是2D结构，而不是3D结构

在整个实验过程中，为了生成与每个输入特征图相同的大小，在每个卷积层中都使用了零填充，因此特征图的大小只能通过跨步卷积或去卷积来改变。在我们的实验中，PRELU激活函数(He等人，2015)被用在所提出的网络中，定义为：F(X)=max{0，x}+α∗min{0，x}，其中α是一个学习参数。每个卷积块包含卷积层、激活层和批归一化层(Ioffe和Szegedy2015)。使用步长为2的步长卷积来缩放要素地图，而不是使用最大值池化。用1×1×1大小的滤波器进行卷积，生成最终的分割图，减少反卷积前的特征图个数，而其它卷积则用3×3×3的滤波器在网络中进行。

Long-range skip connection

传统的残差块跳跃连接的优点是可以重用底层特征，采用元素求和的方法进行特征融合，有效地解决了梯度消失和爆炸的问题。然而，传统的跳跃连接只考虑了同一卷积层之间的特征融合，而忽略了下采样阶段第一卷积层的最低层特征与高层特征的融合。为了解决这一问题，我们采用垂直远程跳跃连接对低层特征和高层特征进行融合，既保证了低层特征的重用，又避免了梯度消失和爆炸的问题。具体地，将原始图像通过第一卷积块生成的第一特征图依次转移到随后的三个下采样级进行特征融合。为了便于特征融合，我们使用不同步长的卷积层来减小第一个特征图的大小。根据特征图在每个下采样阶段的输出大小，步长分别为2、4和8。跨度卷积层的核大小为3×3×3。在图2中，跨度卷积层的输出通道数分别为16、32和64。

Multi-scale feature pyramid

在图2中，使用远程跳跃连接合并要素后，特征地图由三个Arous卷积层(Yu和Koltun2015)和大小为1×1×1的滤波器进行卷积，形成空间特征金字塔。该结构对从单比例尺提取的特征地图进行重采样，融合多比例尺特征，并将全局上下文信息合并到网络中。这种结构在图像分割领域得到了广泛的应用，并被证明是非常有效的。DeepLab(Chen et al.2017)和DDNet就是使用这种结构的例子，但它们只在最终分割结果之前使用多尺度特征金字塔，而且Arous率总是很大，这将使Arous卷积不能像我们预期的那样完全扩展网络的接受范围。为了解决这一问题，我们在每个下采样阶段使用一个多尺度特征金字塔，以使网络的接受范围尽可能大。

==在生成多尺度特征金字塔后，我们使用1×1×1滤波器的卷积来减少特征地图的数量。由于每个下采样级特征图的大小不同，在每个下采样级中使用不同的Arous卷积率，定义为r=2^(4−m)∗i，其中m为下采样级的个数和i为每个下采样级中的Atrus卷积层的个数。==在使用三个多尺度特征金字塔后，网络可以使用不同的atrous速率来感知不同的、更大的接受场。**请注意，为了从每个输入特征映射中获得更多多尺度特征，每个Atrous卷积层中的输出特征映射的数量应该等于输入的数量除以2。**具有多尺度、分层和语义信息的特征金字塔对于分割不同大小的肿瘤和感知分层的上下文信息是有效的。在每个下采样阶段，具有该分层和上下文信息的多尺度融合特征被水平地传递到上采样阶段。

Deep supervision with auxiliary prediction

深度监督也被广泛应用于医学图像分割任务中，可以加速网络收敛，细化分割结果，提高分割精度。在我们提出的网络中，除了对损失函数进行深度监督外，我们还生成了三个辅助分割图，并通过元素求和对它们进行融合。图2显示了在提出的网络中创建的三个辅助分段图：一个的大小与输入的大小相同，一个它的每个维度的大小是输入大小的一半，第三个是输入大小的四分之一。它们以如下方式组合：首先，使用双线性插值对分辨率最低的分割图进行上采样，以产生与第二低分辨率分割图相同的分辨率大小。其次，对两个分割图的元素求和进行上采样，并以相同的方式将其添加到分辨率最高的分割图中。由于上采样阶段结合了来自下采样阶段的多个远程跳跃连接的全局信息，因此网络最后一层的最终分段与辅助分段图相结合，以“鼓励”网络的前几层生成更好的分段。其结果是加速了网络的收敛，并将与这些分割图相关联的加权损失添加到目标函数中。加权损失函数的更多细节将在下一节中显示。

Loss metric

由于鼻腔组织结构的复杂性，CNN的感受野在医学图像分割中起着重要的作用。为了扩展这一领域，3D图像被用作训练和测试样本。然而，这种方法导致了前景和背景类别的严重不平衡，使得网络很难对NPC进行正确定位。解决这一问题的常规方法是使用加权交叉熵目标函数。将正样本的损失乘以额外的权重，以增加正损失占总损失的比例，如公式所示。(1)：
公式1
其中额外权重通常等于负样本数除以正样本数。该公式表明，即使负值样本与正值样本相邻，它们也不会有额外的参数。在这项工作中，额外的参数从39到1316不等。这使得该网络可以很容易地预测多种肿瘤。考虑到沿着肿瘤边界的体素预测，预测阳性样本的惩罚要比预测阴性样本大得多。为了逃脱这一惩罚，该网络倾向于预测“什么都不会发生”，以将总损失降至最低。为了解决这种情况，额外的权重由“sqrt”函数处理。

Dice系数常被用来计算分割结果与地面真实度之间的重叠度。在这项工作中，我们使用了一个类似于Dice相似系数的损失函数。Dice系数定义为：
公式2
其中，PT是预测§和目标(T)的元素乘积，而||X||2是X的L2范数.

在比较的网络(Kayalibay等人，2017)之后，整个实验中使用的损失函数接近骰子相似性度量，可以表示如下：
公式3
这一指标被广泛称为贾卡德指数，代表分割结果与ground truth之间的相似性。为了“鼓励”网络的初始层产生更好的分割结果，加快网络的收敛速度，我们在上采样阶段生成了三个辅助分割图。总目标函数如方程所示。(4)：

公式4
其中Jaccα、JACCβ、JACCγ表示三个辅助分割图的Jaccard损失，Jaccm表示正常分割图的Jaccard损失，αβγ表示来自相应辅助分割图的损失权重。在实验中，考虑到三个辅助分割图的重要性不同，我们设置了α=0.8，β=0.4，γ=0.2。

Experiments

Dataset and pre-processing

在我们的实验中，对120例鼻咽癌患者的三维MRI图像进行了训练和测试。所有图像都来自同一家医院，并使用飞利浦Achieva 3T扫描仪系统获取。T1高分辨率各向同性容积激发(Thrive)扫描被用来使肿瘤比其他MRI获得的图像更清晰可见。Thrive扫描图像的体素大小为0.61×0.61×0.8mm³，空间大小为528×528×290。因此，它们包含了从头部到颈部的大规模组织结构。然而，NPC只占头部的一小部分。我们使用以下三个步骤来处理这些图像。首先，为了降低计算复杂度，我们选择了鼻咽癌患者颈部以上的图像。其次，将图像重采样至1.0×1.0×1.0mm³的固定分辨率。第三，为了适应GPU的资源，提取网络中有效的NPC特征，将每幅图像分割成160×198×103的固定空间大小。这个大小包含奇数，这不适合卷积层。在实验中，我们用零填充图像，得到160×198×104的空间大小。在Logit上执行Softmax的激活函数后，我们将概率图裁剪成160×198×103的大小。为了提供足够大的感受野，在训练和测试阶段，所有的裁剪图像都被用作原始输入图像。在训练过程中，图像被随机水平翻转以克服训练样本稀少的问题，训练的ground truth和鼻咽癌患者脑图像的测试样本由经验丰富的肿瘤学家手动注释。在训练过程中，图像被随机水平翻转，以克服训练样本稀缺的问题，训练的ground truth和鼻咽癌患者脑图像的测试样本由经验丰富的肿瘤学家手动注释。

Evaluation metrics

实验中使用平均对称表面距离(ASSD)、Dice相似系数(DSC)和F1-score来定量评估网络的分割性能。对于ASSD，(绝对值)越小，分割结果越好。F1-score是精确度和召回率的调和平均值，F1-score在等于1达到最佳值(完美的精确度和召回率)，在等于0时达到最差值。DSC已在第3节中定义。ASD的定义如下
在这里插入图片描述
其中G和P分别表示ground truth和预测分割结果的表面体素，并且d(g，p)表示g和p之间的欧几里德距离。

Implementation Details and Parameter settings

在实验中，比较和提出的网络在TensorFlow(Abadi等人，2016)和一些Python包(如SimpleITK和Numpy)上实现。所有网络的输入图像大小均为160×198×103。针对训练样本稀缺且网络容易过拟合的问题，我们在训练阶段进行了5次交叉验证，并对训练样本进行了水平镜像随机翻转来解决这一问题。在每次交叉验证中，我们使用96名患者的图像作为训练样本，24名患者的图像作为验证样本。在训练过程中，使用了ADAM优化器，初始学习率为0.001，而V-Net的初始学习率为0.0001。在所有实验中，训练迭代的总次数为5000次，既保证了模型能够充分学习NPC的特征，又不花费太多的训练时间，以0.9的学习率衰减率，每500次迭代，初始学习率呈指数级下降。由于3D MRI图像相对较大，我们将最小批量设置为1。所有网络对logits执行Softmax作为最终激活函数，输出最终分割图的概率。

图3使用加权交叉熵对一些样本的预测结果。样本的预测值比ground truth要大得多。平均dsc=0.656，平均asd=2.138 mm。

Comparison with state-of-the-art automatic methods

将五种最先进的自动化方法(3D U-Net、V-Net、3D DeepLab、基于CNN的网络(Kayalibay et al.2017)和DDNet)与我们的网络进行了比较，我们称之为多尺度特征金字塔网络(SFPN)。U-Net被广泛应用于医学图像分割，并在2015年ISBI细胞跟踪挑战赛中获奖。我们在这个实验中使用了3D版本的U-Net(圣伊塞克等人，2016年)。由于内存的限制，在3DU-Net中使用的特征地图的大小是原始特征地图的一半。DeepLab被广泛用于2D图像的语义分割(Chen等人，2017年)，并在VOC2012公共数据集上取得了令人印象深刻的结果。在本实验中，实现了3D版的DeepLab，并与SFPN进行了比较。DDNet以DenseNet为基础，还使用特征金字塔来提取每个密集块中的多尺度特征。它只进行一次反卷积来产生最终的分割结果。基于CNN的网络结构是基于U-Net的，与SFPN相比是基线网络。在特征提取阶段，基于CNN的网络采用完全预激活的残差网络。在上采样阶段，生成多个辅助分割图，并将预测结果整合到最终分割结果中。

为了评估ground truth对实验结果的影响，我们用两位医学专家对28例患者的MRI样本进行了注释。一种注解被用作ground truth，另一种被用作预测。计算的Dsc、F1-Score和ASSD指数分别为0.642、0.686和2.692 mm。这表明，即使是由专业人士手动批注的相同样本也不是完全一致的。

图4三个样本的特定切片上不同网络分割结果的比较。第一列显示原始MRI图像，第二列到第八列表示ground truth和不同网络的结果。a raw、b Ground Truth、c SFPN、d CNN-based、e DDNet、f 3D U-Net、g DeepLab、h V-Net

图5 不同网络对特定切片上样本的三个不同维度的分割结果的比较。

Experiments with weighted cross-entropy loss function

为了将该网络与其他网络进行比较，首先使用加权交叉熵损失函数对其进行了验证。预测结果如表1所示。对于每个训练样本，将负样本的像素除以正样本以产生额外的权重，每个样本的权重从39到1316不等。为了避免显著的正损失和减小预测分割结果的范围，额外的权重被“sqrt”函数处理。

图3显示了一些样本的预测结果。利用加权交叉熵损失函数，该网络容易对肿瘤进行较大范围的预测，从而使阳性样本能够逃避惩罚。因此，网络结构不能准确定位肿瘤，导致表1中三个指标的分割效果较差。

图6 3DMRI图像，肿瘤形态特殊。虽然网络计算的DSC非常低，但我们的网络正确地定位了肿瘤。

Experiments with Jaccard loss function

表2显示了使用Jaccard损失函数的每个网络的分割结果。提出的网络记录的平均DSC值为0.737，F1-score为0.754，平均ASD值为1.214 mm。采用元素求和和多尺度特征的长程跳跃连接，三个指标的值在比较网络中最好。注意，使用Jaccard损失函数时，V-Net不能收敛，总是陷入局部最小值，并且预测分割结果为“没有”。

图4和图5显示了表2中的一些样本切片在不同网络中的分割结果。由于鼻咽癌标本由病人的脑组织组成，某些特殊的标本会使定性结果变差(如具有细长结构的肿瘤)。图6显示了定性分割结果的对比示例。图中2例患者肿瘤细小。虽然网络计算的DSC非常低，但我们的网络正确地定位了肿瘤。

如表3所示，前三条线代表了没有第3节所述创新的NPC分割结果。由此可见，每一次创新都改善了网络的分割结果，特别是在加入长距离跳跃连接后，平均DSC的分割结果提高了2.96%。长距离跳跃连接可以融合从第一次卷积到每一次下采样结束的低层特征，可以有效地重用低层特征。由于NPC相对较小，远距离跳跃连接可以防止由于多次下采样而造成的NPC细节信息的丢失。多尺度特征金字塔(SFP)使分割结果平均DSC提高1.9%，能够提取融合特征的多尺度特征，并能提取不同尺度的鼻咽癌肿瘤特征。表3的结果还表明，深度监督和辅助分割预测图可以加速网络的收敛。由于我们对这些辅助分割图进行了融合，并将加权损失加入损失函数，最终分割结果平均提高了1.22%。由于这三项创新达到了设计的目的，使分割效果有了明显的提高。图7显示了使用加权交叉熵和Jaccard损失函数对不同网络产生的DSC和ASSD分割结果的比较。

图7 比较了DSC和ASSD的分割结果。图中的前六个结果是使用加权交叉熵从不同的网络生成的，接下来的五个结果是从Jaccard损失函数生成的。

Conclusion

在这项工作中，我们提出了一种新的用于鼻咽癌定位的CNN图像分割方法。为了应对这种分割带来的挑战，我们设计了一个具有远程跳跃连接和多尺度特征金字塔的三维CNN。该网络可以感知肿瘤的多尺度特征，以及使用该结构的分层语义和上下文信息。为了加快网络的收敛速度，我们使用深度监督生成辅助分割预测，并将辅助分割图的加权损失加入到总损失中。为了证明该方法的有效性，我们将其与四个最先进的分割网络和一个基准网络进行了比较。研究发现，该方法在三个指标上均优于所有其他网络。此外，我们使用的Jaccard损失有效地解决了鼻咽癌患者图像分割中前景和背景极端不平衡的问题。分割网络和损失函数将在其他医学图像分割问题上得到验证，我们计划在未来对此进行进一步的研究。