MDF-Net:一种用于超声图像乳腺肿瘤分割的多尺度动态融合网络
MDF-Net :A Multi Scale Dynamic Fusion Network for Breast Tumor Segmentation of Ultrasound Images
摘要
超声图像的乳腺肿瘤分割为肿瘤的早期检测和诊断提供了有价值的信息。由于感兴趣区域之间的低图像对比度、斑点噪声以及肿瘤形状和大小的大的受试者间变化,准确分割具有挑战性。提出了一种新的多尺度动态融合网络(MDF-Net)用于乳腺超声肿瘤分割。它采用两阶段的端到端架构,具有用于多尺度特征选择的主干子网络和结构优化的细化子网络,用于通过更好的特征探索和融合来减轻诸如噪声和受试者间变化等损伤。主干网络是从UNet++扩展而来的,具有简化的跳过路径结构,以连接相邻尺度之间的功能。此外,在所有尺度上,而不是在UNet++中的最细尺度上,提出了深度监督,以提取更具鉴别力的特征,并通过混合损失函数减轻斑点噪声的误差。与以前的工作不同,第一阶段与第二阶段的损失函数相关联,以便初步分割和细化子网络可以在训练时一起细化。细化子网络利用结构优化的分割机制以粗尺度整合初步分割信息(捕获一般肿瘤形状和大小),并以更精细的尺度探索受试者间的变化信息。在两个公开数据集上的实验结果表明,与现有方法相比,该方法具有更好的Dice等性能.定性分析还表明,我们提出的网络是更强大的肿瘤大小/形状,斑点噪声和沉重的后方阴影沿着肿瘤边界。还提出了一个可选的后处理步骤,以方便用户减轻分割伪影。在“电子显微镜神经结构分割数据集”上也说明了所提出的网络的效率。它的性能优于基于UNet-2022的最先进算法,设置更简单。这表明了我们的MDF网络在其他具有挑战性的图像分割任务中的优势,这些任务具有小到中等的数据大小。
引言
I法师分割在许多图像处理应用中起着重要作用,包括场景理解[1],[2],医学图像分析和识别[3],[4],[5],[6],[7],[8],[9],监视,增强现实等。由于机器智能的进步,自动分割受到了广泛关注。尤其是作为医疗专业人员的宝贵助手。在通过乳腺超声(BUS)成像早期检测乳腺癌的背景下[10],乳腺肿块分割是计算机辅助诊断(CAD)系统中的重要步骤,因为准确的分割可以为进一步诊断提供有价值的病变信息。这个问题非常重要,因为乳腺癌是全球女性死亡的主要原因,每年影响210万女性[11],[12]。虽然乳房X线摄影仍然是乳腺癌早期检测的主要方式,但它增加了暴露于辐射的风险,具有较高的假阳性率,并且难以在高密度的乳腺组织中检测癌症[13],[14]。另一方面,总线由于其安全性、低成本、实时性和高灵敏度而具有吸引力。
BUS图像中的准确肿块分割具有挑战性,因为:1)感兴趣区域之间的图像对比度低; 2)斑点噪声破坏分割; 3)不同患者之间乳房肿块形状和大小的受试者间/个体差异较大(如图1所示)[15],[16],[17]。BUS分割的算法可以分为三大类,a)手动,b)半自动和c)全自动分割技术[18]。手动分割是一个需要专业知识的及时而繁琐的过程。在半自动分割中,放射科医师指示包含病变的感兴趣区域(ROI),并且通过分割算法计算详细边界。各种方法,如马尔可夫随机场(MRF)[19],[20],活动轮廓模型(ACM)[21],[22],分水岭方法[23],[24],聚类[25],[26],[27],阈值[28],[29],贝叶斯[30]和基于图形的方法[31]已经被提出。然而,这些方法需要大量的人为干预。为了解决这个问题,人工神经网络(ANN)[32],[33],[34]已被提出用于乳腺病变的自动分割。然而,性能高度依赖于特征的选择。
卷积神经网络(CNN)等深度学习技术已经成为一种很有前途的方法,因为它们能够通过可学习的卷积过滤层自动学习图像和高级特征,从而有效地执行由标签引导的相关图像处理功能。例如,自然图像的CNN初始层通常类似于边缘检测中的方向滤波[35]。为了简化训练,基于补丁的CNN在小块上工作,并在图像上使用滑动窗口方法来预测每个像素的类别标签。然而,改进的定位精度通常被探索的有限空间信息所抵消[36]。使用具有用于连续细化的馈通信息的多尺度分析结构,U-Net [37]能够更有效地捕获空间信息,以获得高级任务特定特征,并逐渐细化其定位以进行像素级分割。在乳腺癌组织分割的背景下,Xu等人。[38]提出了一种8层CNN,用于分割四种类型的乳腺组织,即皮肤,纤维腺体组织,肿块和脂肪组织。Hu等人。[39]探索了全卷积网络(FCN)[40]和用于乳腺癌组织分割的U-Net。他们用扩张卷积和基于相位的活动轮廓改进了FCN。Kumar等人[41]使用改进的多U-Net算法分割乳腺癌组织。在[42]中为U-Net开发了一个选择性核块,以自动调整感受野并利用不同尺度的空间信息。一些基于多任务的网络,JCS [3]和ECSU-Net [4],也被提出用于联合分类和分割系统以同时执行诊断。此外,迁移学习已应用于[43]中的FCNs,用于乳腺癌组织分割[44],[45]。最近,一些基于transformer的网络已经证明了医学图像分割任务的巨大潜力[59],[60],[61],[62]。
然而,BUS的低对比度和图像强度、受试者间变异性和斑点噪声仍然对癌症组织分割提出了巨大挑战[15],[16],[17](参见图1)。具体地,器官组织上的强度和纹理可能非常相似,这在描绘底层边界时产生了很大的困难和误差。为此,已经提出了各种两阶段深度学习方法[46],[47],[48],以在第一阶段获得初步分割后改进分割。例如,Mina等人。[48]使用一个U-Net近似定位肿瘤,另一个U-Net在检测区域中细化分割。这种方法的缺点是,一旦第一阶段被训练并且第二阶段中的细化网络被单独训练,则初步分割通常是固定的。因此,第一阶段中的U-Net和初步分割不能基于第二阶段中计算的损失进一步优化,并且第一阶段的错误将传播到下一阶段。
受试者之间的变异性,如形状、大小等,是BUS分割中的另一个主要挑战。分辨率越高,处理这些变化所需的精度就越高。这通常导致获得的分割的大方差。为了解决这个问题,UNet++ [49],如图2所示,使用嵌套和密集的跳过路径来连接传统U-Net的多尺度特征,以最大限度地减少它们的语义差距。由于U-Net通过融合粗尺度和细尺度的信息来捕获形状变化的能力更强,因此在几个医学分割任务中,U-Net和宽U-Net的性能有所提高。
然而,UNet++不包含细化网络,其分割无法进一步细化,以对抗由于噪声,低对比度和图像强度等造成的图像损伤,在超声(US)图像中。此外,超声(US)中的斑点噪声会显著影响分割精度,因为它可以以不同的尺度在不同的卷积层上传播。因此,非常希望开发一种细化网络,通过深度监督的概念探索相邻决策[50],以纠正由各种图像损伤(如斑点噪声)引起的可能错误。
为此,我们提出了一种新的网络架构,称为多尺度动态融合网络(MDF-Net),通过扩展UNet++ [49]框架进行乳腺超声癌组织分割。它具有以下显著特点:
1)提出了一种由主干子网络和细化子网络组成的两级端到端结构,以更好地进行特征探索和融合。它与[46],[47],[48]相比的主要优点是第一阶段与第二阶段的损失函数相关联,因此初步分割和细化子网络可以在训练时一起细化以提高准确性。
2)提出了一种预引导的多尺度深度监督架构,以通过主干子网络的不同尺度之间的深度监督来减轻斑点噪声引起的误差1。这与图2中的UNet++相反,它只对最细的尺度应用深度监督。由于散斑噪声可能传播到较粗的尺度,所提出的架构能够通过混合损失伴随函数来抑制在各种尺度下产生的误分类错误。
3)提出了一种多尺度动态融合机制(MDFM),以有效地整合初步分割信息在粗到细scales2。具体而言,初步的粗尺度分割作为一般的形状和尺寸之前,而在更精细的层的信息被动态融合,以提高对质量和形状的受试者间变化的鲁棒性。
对两种公开的医学乳腺癌图像的实验结果表明,本文提出的MDF-Net分割方法在性能上优于现有的分割方法(平均值较高)和可靠性Dice相似性评分(DSC)、交集大于并集(IOU)和不同情景下的敏感性(较低方差)(如小、中、大尺寸乳腺肿块,以及有斑点噪声、后方阴影较重、靠近肿瘤边界的肿瘤图像)3.这些发现表明,所提出的方法是更强大的斑点噪声,肿瘤块的形状和大小的变化,以及肿瘤边界周围的低对比度比传统的方法。本文的组织如下:拟议的MDF-Net介绍了第二节。数据集、评价指标和实验结果见第三节。第四节进行了分析和讨论,第五节得出了结论。
II. THE PROPOSED METHOD–方法
下面展示一些 内联代码片
。
图注:MDF网络的主要结构,包括1)主干子网络(灰色虚线框)2)应用于分割块的预引导多尺度深度监督
(粉红色虚线框)和3)细化子网络(浅绿色虚线框)。(初步分割节点S0,3、S1,3、S2,3、S3,2、S4
,1和最终分割节点S0,6)绿色块Sm,n是具有1 × 1的核大小的卷积层。Fm,n指的是多尺度动态融合机制块,
其细节在图4中介绍。Rm,n是指细化子网络的解码器块。Tm,n和Rm,n都由两个3 × 3卷积层组成,每个卷积
层后面都有一个批量归一化和一个ReLU激活函数。
A. Overview of the Proposed End-to-End Two-StageMDF-Net—A.拟议的端到端两级MDF-Net概述
图3给出了拟议的MDF-Net的概述。它采用端到端的两级细化架构,由主干子网络(由灰色矩形框表示)、多尺度深度监督级(由黄色框表示)和细化子网络(由浅绿色框表示)组成。更准确地说,原始图像首先送入主干子网络进行特征提取,以获得粗分割结果。预引导多尺度深度监督阶段通过在训练中使用混合损失函数来优化多尺度特征。然后,一种新的多尺度动态融合机制(MDFM)结构(图3中的橙子框Fm,n4)被用作细化子网络的编码器,以动态地融合原始图像和主干子网络的多尺度初步分割结果。细化子网络的解码器块由Rm,n表示。通过使R 0,6处的解码器输出通过分段块(S 0,6)来获得最终分段结果。图3中还显示了用于计算混合损失函数的信息(包含在蓝色框中),该混合损失函数相对于用于优化网络的可学习参数的地面真值标签。
与UNet++一样,拟议的主干子网络通过在传统的U-Net上包括额外的卷积层和它们之间的连接,更好地探索了多尺度特征。然而,仅来自较低、相同和较高分辨率特征的连接被包括在每一层处(参见图1)。图3中的灰色虚线框)。这导致了一个更简单的网络,用于捕获与肿瘤形状和大小相关的多尺度纹理特征5。
另一方面,多尺度深度监督阶段用于优化多尺度特征图,以获得更直接和更具鉴别力的特征。为此,来自主干子网络的初步分段被包括在用于训练网络可学习参数的混合损失函数中。虽然深度监督已应用于UNet++,基于注意力的嵌套U-Net(ANU-Net)[51]和UNet 3 + [52]用于图像分割,但监督通常在每个解码器级的侧输出处执行(见图2)。相比之下,我们建议在整个多尺度潜在空间进行深度监督,以获得更好的性能。
然后,通过所提出的多尺度动态融合机制(图3中的黄色虚线框)将深度监督的多尺度特征集成到细化子网络中。在以前的两阶段方法[46],[47]中,仅使用一个尺度的初步结果来选择输入图像的相关部分或将其连接到输入图像以进行细化。这两个网络是分开训练的。相比之下,所提出的MDFM利用可学习的多尺度全局信息来捕获肿瘤特征(诸如面积、形状和大小)作为注意力,以使用将在下面的子部分E中描述的适当选择的混合损失函数来同时指导主干和细化子网络的训练。此外,来自主干子网络的输入图像和解码器结果也被传递到MDFM细化块。因此,来自主干子网络的多尺度特征可以通过以端到端的方式整体优化整个网络来动态融合。
除了普通的MDF-Net,我们还提出了一个轻量级版本,称为MDF-Net-S,具有更少的网络参数。其结构细节见表I。我们现在在以下小节中描述这些主要组件。
B. The Trunk Sub-Network—B。主干子网
如前所述,所提出的MDF-Net利用端到端的两级细化架构来解决肿瘤块的各种变化。与U-Net和UNet++都具有U形结构不同,图3所示的MDF-Net采用主干U形子网络(由灰色矩形框表示)来捕获多尺度粗粒度语义,随后是细化U形子网络(由浅绿色矩形框表示),用于捕获肿瘤形状和大小的细粒度细节。
主干子网络是从UNet++的动机。给定分辨率的每个中继块不仅接收来自具有相同和较低分辨率的块的连接,而且还接收来自下一个较高分辨率的块的连接。这导致主干子网络具有比图2中的UNet++稍小的块数量(12对15块)6。另一方面,细化子网络(图3中的浅绿色框)是从U-Net扩展的。类似地,在给定分辨率的编码器/解码器块与相同和相邻(下一个更高和更低)分辨率的编码器/解码器块之间添加更多连接,以更好地利用多尺度语义信息7。例如,块T1,2从编码器/解码器块T2,1(较低尺度)、T1,0、T1,1(相同尺度)和T0,1(较高尺度)接收输出特征图。每个节点都由两个卷积层组成,每个卷积层后面都有一个批处理归一化和一个ReLU激活函数。
这些编码器/解码器块(图3中的蓝色框)根据其分辨率和卷积层标记为Tm,n,其中m表示分辨率,n表示卷积层。因此,具有相同n的卷积块属于相同的分辨率层(从0开始)。例如,图3中的T0,n、T1,n和T2,n表示所提出的MDF-Net的第n个卷积层,其特征越来越高,但空间分辨率较低8。m表示沿着编码器的下采样层,并因此表示分辨率。m=0对应于原始分辨率,m=1对应于抽取后的下一个较低分辨率,反之亦然。
令tm,n为主干块/节点Tm,n的输出特征图,维度为Cm,n × Wm,n × Hm,n,其中C为通道数,W为特征图的宽度,H为特征图的高度。在每个编码器/解码器块Tm,n处,特征图tm,n的堆栈被表示为
然后,这些多尺度特征被传递到将在下一小节中描述的深度监督阶段,然后由将在下面的小节D中描述的多尺度动态融合机制聚合。
C. Pre-Guided Multi-Scale Deep Supervision—C.预引导多尺度深度监督
如前所述,在主干子网络的解码器处引入多尺度深度监督技术作为预指导,以通过优化可学习参数从不同尺度获得更具区分力的特征图。深度监督[50]旨在最大限度地减少分类错误,并在学习过程中提高隐藏层的“直接性和透明度”。该算法加快了收敛速度,解决了训练过程中梯度消失的问题。与以前的工作不同[51],[52],我们建议在主干子网络的解码器之后在整个多尺度潜在空间中加入多尺度深度监督。
更具体地,为了引入预引导深度监督,干线子网络中的每个解码器块(图3中的T0,2、T1,2、T2,2、T3,1、T4,0)的输出层被馈送到分段块(图3中的绿色的分段块S 0,3、S1,3、S2,3、S3,2、S4,1)。每个分割块Sn,m由1 × 1卷积层组成,其后是Sigmoid激活函数和双线性上采样操作。主干子网络解码器级的每个侧输出(其是使用具有不同尺度的信息的初步分割)直接使用混合损失函数由地面实况监督(第II-E节)。
图注:所提出的多尺度动态融合机制(MDFM)块的示意图。(a)融合结构,最后在建议的MDF-Net中使用。(B)-(d)是所检查的其它三种结构。每个卷积块由两个3 × 3卷积层组成,每个卷积层后面都有一个批量归一化和一个ReLU激活函数。分段块是1 × 1卷积层。
D. Refinement With Multi-Scale Dynamic Fusion—D.多尺度动态融合的细化
从主干子网络中提取的多尺度分割特征图在细化子网络中使用建议的多尺度动态融合机制(MDFM)进行融合。为了最大限度地提高改进MDFM的有效性,我们通过检查不同的模块进行信息融合来优化其架构。更准确地说,我们利用不同的操作,如加法,级联,乘法及其组合在多尺度水平,以构建四个不同的模块结构,如图4所示的融合。然后,融合后的特征映射被送入两个3 × 3层的卷积块,每个层后面都有一个批量归一化和一个ReLU激活函数。
更具体地,图3中所示的MDFM块被标记为Fm,n,其中m是卷积层(包括主干子网络中的T个块)的索引,并且n是沿跳过路径的卷积块沿着。例如,F1,4块的输入是来自F0,4块的下采样输出,F0,4块由T1,2的解码器特征图和来自S1,3的分段特征图组成。
要看的论文
50:C.-Y. Lee, S. Xie, P. Gallagher, Z. Zhang, and Z. Tu, “Deeply-supervised
nets,” in Proc. Artif. Intell. Statist. (PMLR), 2015, pp. 562–570.
[51] C. Li et al., “ANU-net: Attention-based nested U-net to exploit full
resolution features for medical image segmentation,” Comput. Graph.,
vol. 90, pp. 11–20, Aug. 2020.
[52] H. Huang et al., “UNet 3+: A full-scale connected UNet for medical
image segmentation,” in Proc. IEEE Int. Conf. Acoust., Speech Signal
Process. (ICASSP), May 2020, pp. 1055–1059.