A novel full-convolution UNet-transformer for medical image segmentation

A novel full-convolution UNet-transformer for medical image segmentation


一种新的用于医学图像分割的全卷积UNet-transformer

摘要

基于Transformer的方法仍然无法有效地对本地上下文进行建模,尽管它们弥补了基于小内核CNN的方法的远程信息依赖性的不足。针对这一不足,提出了一种新的全卷积UNet Transformer模型FC-UNETTR,用于医学图像分割。首先,提出了一种新的全局-局部注意力模块,该模块利用多个不同大小的小内核进行深度卷积,以扩大网络模型的感受野,增加编码器阶段语义信息的远程依赖性,并提高网络对模糊边缘的特征提取能力。然后,重新参数化的前馈网络的开发,以进一步提高局部信息的提取和减轻特征映射之间的耦合,使特征映射通道之间的关系,可以更好地揭示。此外,跳过连接和解码器被重新设计,通过构建一个密集的多尺度模块,而不是传统的ResNet模块,以减轻语义偏见。受益于上述改进,构造的FC-UNETTR没有预训练表现出很强的能力,以提取局部特征和捕获图像的长期依赖性在医学图像分割。实验结果表明,FC-UNETTR在Synapse数据集上的DSC和HD指标上分别达到了85.67%和7.82%的优异性能,与最先进的网络模型相比,模型参数更少。此外,DSC在ACDC数据集和口腔移植骨的私有数据集上分别达到92.46%和94.76%,优于一些最新的医学图像分割模型。
一些 重点

提出了一种新的全局-局部注意力模块,该模块利用多个不同大小的小内核进行深度卷积,
以扩大网络模型的感受野,增加编码器阶段语义信息的远程依赖性,并提高网络对模糊边缘的特征提取能力

介绍

下面展示一些 内联代码片

医学图像分割现状

计算机辅助医学图像分割主要用于获取目标器官或组织的区域、形状等临床信息,可以帮助临床医生更有效地开展工作。它在计算机辅助诊断和图像引导手术中起着关键作用,广泛应用于医学诊断和治疗[1]。此外,计算机辅助诊断在科学领域的各个领域都做出了显著的贡献[2,3]。在过去的十年中,深度学习技术得到了迅速发展,导致传统的图像分割方法在医学领域被基于深度学习的方法所取代[4,5]。UNet [6]是一种基于卷积神经网络(CNN)的网络,由于其在医学图像分割方面的突出优势,取得了优异的效果,并成为一种有效的方法。该算法首先通过编码器的特征提取将输入图像转换到高维空间,然后在解码器中通过增加跳跃连接融合不同尺度的特征。最后,解码器将高维空间的特征映射到图像分割结果。到目前为止,医学领域中的大多数分割网络仍然使用这种流行的架构,并且UNet的各种变体[7-10]相继开发,将医学图像分割提升到一个新的水平。

一些问题,及发展解决办法

CT、MRI和其他模态的医学图像通常具有边界模糊、高水平噪声、不同区域中的接近图像特征等特征[50]。应该指出的是,由于卷积运算的固有限制,以前的基于CNN的方法很难对图像语义信息中的长程依赖关系进行建模。这正是基于CNN的模型无法实现精确医学图像分割的原因。因此,它们仍有很大的改进空间。换句话说,有必要开发更优雅的分割模型,以要求强大的特征提取和远程建模功能。最近,Transformer [11]在自然语言处理方面取得了巨大的成功,这得益于其出色的远程建模能力,但在捕获细粒度细节方面仍然存在局限性。幸运的是,ViT [12]将图像划分为不重叠的块,并将图像馈送到具有位置嵌入的Transformer模型中,以提高分割性能。然而,基于ViT的医学图像分割模型暴露了大量参数和高计算负担的缺点。此外,它们通常需要设置预训练权重和大量的数据进行训练,而带有注释的医学数据的稀缺限制了它们的应用。ConvenXt [13]利用大型内核深度卷积来捕获图像中的远程依赖关系,因此与具有相同精度的模型相比,参数和计算成本更少。因此,大核深度卷积获得了人工智能协会更多的研究关注,使构建用于医学图像分割的注意力网络成为可能。

自己论文的贡献

本文致力于提高现有医学图像分割模型的分割精度。借鉴当前CNN和基于大核深度卷积的注意力网络构建方法,提出了一种用于医学图像分割的全卷积UNet Transformer模型(FC-UNETTR),该模型具有较强的局部特征提取能力和较大的感受野,能够捕捉语义的长程依赖性。这一发达网络的主要创新之处突出如下:
(1)提出了一种全局-局部注意模块,其中采用了具有不同大小的多个深度卷积。这种注意力模块扩展了网络模型的感受野,增加了语义信息的远程依赖性,提高了网络对模糊边缘的特征提取能力。
(2)提出了一种重新参数化的前馈网络(FFN)。这种网络的优点是增加了FFN中的局部信息提取,减轻了特征映射之间的耦合,从而更好地揭示了特征映射通道之间的关系。
(3)设计了一个密集的多尺度模块来代替传统的ResNet模块。这种模型具有减轻跳跃连接中的语义偏差和增强上采样阶段的特征提取能力的优点。
(4)提出了一种用于医学图像分割的FC-UNETTR网络。与一些最先进的网络相比,Synapse公共数据集,ACDC公共数据集和私人牙科种植体数据集的优越性得到了验证。实验结果也表明了小目标、大目标以及多目标分割任务的有效性。

前馈网络(FFN"FFN""MLP" 表示前馈神经网络和多层感知机,它们在概念上是相同的。
前馈神经网络是一种最常见的神经网络结构,由多个全连接层组成,层与层之间是前向传播的。多层感知机是一种
前馈神经网络的具体实现,其中至少有一个隐藏层。

相关工作

2.1.基于CNN的医学图像分割
FCN [14]是语义分割领域的先驱,其变体UNet [6]通过改进跳跃连接和融合解码器中不同尺度的特征,成为最著名的分割模型之一,在医学图像领域具有高效率和广泛的应用。在[15]中构建了更深层次的网络结构,其中剩余网络被用作UNet的骨干网络。与原UNet算法相比,该算法在训练时收敛速度更快,在测试中分割精度更高。受DenseNet [16]和ResNet [17]的启发,在[18]中设计了残差密集网络(RDN)模块,并用作视网膜血管分割的U形网络模块。区域CNN(RCNN)模块作为RU-Net架构的骨干在[19]中发布,以增强上下文信息的捕获能力,因此分割网络具有更好的特征表示能力。此外,改进的跳跃连接也对提高模型性能做出了重要贡献。UNet++ [8]通过在编码器和解码器之间创建密集的跳过连接来减少它们之间的语义差异。通过在跳过连接中添加一些注意门,AttentionUNet [20]抑制了不相关的区域,同时突出显示了感兴趣的区域。同时,当分割对象的大小变化较大时,提取多尺度信息对网络具有重要意义。DIU-Net [21]充分利用类似的初始块[22]作为骨干,以在不同尺度上更好地提取特征。COPLE-Net [23]利用瓶颈处的空间金字塔池(ASPP)块来捕获不同大小病变的多尺度特征,以分割肺炎病变。最有影响力的UNet变体nnUNet [10]在医学图像分割中设置了多个记录,可以自动执行数据预处理,无需人工干预,并根据数据特征选择最佳网络结构。
2.2.基于Transformer的医学图像分割
受ViT [12]的启发,Transformer被广泛用于医学图像分割。有两种代表性的方法,即纯变压器(仅变压器层)和混合架构(CNN和变压器层)。在纯Transformer方法中,Swin-UNet [24]在编码器和解码器中都采用Swin-Transformer [25]来计算局部窗口内的自注意力,并且对于输入图像具有线性计算复杂度。TransDeepLab [26]是一种类似于DeepLab的纯Transformer模型,通过利用具有移位窗口的分层Swin-Transformers从DeepLabv 3 [27]扩展而来,引入了具有不同窗口大小的Swin-Transformer模块金字塔。在Synapse数据集上的实验证明了该方法的有效性,本文也使用了该数据集。此外,基于混合架构的方法结合了Transformer和CNN的互补优势,可有效地对全局上下文进行建模,同时捕获局部特征以进行准确分割。例如,TransUNet [28]在低分辨率编码器特征映射中使用一些Transformer层来捕获远程信息处理依赖性,使用基于CNN的解码器来分割医学图像。Transmittance [29]提出了一个BiFusion模块,通过使用自注意力和多模式融合机制,选择性地有效融合来自Transformer和CNN层的特征。然而,上述网络需要在大规模数据集上进行预训练以实现更好的性能,并且所有这些网络都专注于提高网络的性能,而没有考虑计算和参数的量化。值得注意的是,所提出的网络不需要预训练,在解码器阶段使用Transformer风格,但不采用自注意机制,因此避免了二次计算复杂性。
2.3.基于深度卷积的骨干网络
自2014年以来,CNN通常使用小内核卷积(例如,3 × 3或1 × 1),并通过加深网络深度来实现出色的性能。最近,一些有趣的工作是通过使用大内核的深度卷积报告。例如,与Swin-Transformer [25]的设计元素类似,ConvneXt [13]使用7 × 7深度卷积而不是自注意力来获得更好的每个卷积,如果选择过大的卷积核,则可能会降级。RepLKNet [30]首先通过使用重新参数化方法将深度卷积扩展到31 × 31,并获得与Swin-Transformer相当的性能。值得注意的是,尽管它比传统卷积具有更少的参数和更简单的计算,但随着卷积核大小的增加,基于深度卷积的网络的计算负担急剧增加。Slak [31]使用大小为M × N,N × M和N × N的卷积核,而不是M ×M卷积,在ImageNet分类任务和一些下游任务中取得了更好的结果。货车[32]中较大的内核卷积被分解为深度卷积、扩张卷积和逐点卷积,以减少与大内核相关的众多参数和计算工作量,同时扩大感受野。值得注意的是,本文提出的网络中使用多个小核深度卷积来构建局部-全局注意力,其中一个小核指的是卷积核小于或等于5 × 5。

方法

3.1.通用网络体系结构-3.1. General network architecture–整体流程过了一下
提出了一种用于医学图像分割的全卷积UNet Transformer模型FC-UNETTR。所设计的网络遵循UNet的基本结构,其框架如图1所示。首先,本文重新设计了一种新的编码器,它主要由局部感知模块(LPMs),全局局部注意模块(GLAM)和重新参数化FFNs(RepFFNs)。通过这样做,所构造的网络不仅具有大的感受野,以捕获语义信息的远程依赖,而且还具有较强的局部特征提取能力,以更好地提取图像特征。具体地说,设计的编码器包括5个阶段,每个阶段首先采用步长为2的卷积来减小特征图的大小并增加通道维数以进行下采样,然后应用LPM从图像特征图中提取局部信息,并交替堆叠多个GLAM和RepFFN进行特征提取。它们可以配制成
在这里插入图片描述
其中X ∈ RC×H × H×W代表每一级的输入,Z ∈ X代表第k个块的LPM和GLAM模块的输出特征,BN代表批量归一化。为了解决跳过连接中的语义间隙,使用重新设计的密集多尺度模块(DMM)来代替常见的ResNet模块。对于跳跃连接和瓶颈(i = 5)中的每个阶段i(i ∈ {0,1,2,3,4,5}),其输出特征大小为H/2 i × W/2 i,首先利用解码器中的转置卷积层将特征图的分辨率扩展到原始分辨率的两倍,然后在信道方向上拼接跳跃连接输出。在下文中,通过应用3 × 3卷积层来融合特征,其中特征映射通道的数量减少到原始通道的一半。此外,密集多尺度模块用于进一步解码特征图中不同尺寸的分割目标的语义信息。得到的结果将被发送到下一阶段,直到输出特征尺寸为H × W。最后,使用1 × 1卷积层和softmax激活函数计算输出分割结果。
在这里插入图片描述
3.2. Local perception module—3.2.局部感知模块
SETR [33]通过在传统的基于编码器-解码器的网络中用Transformer替换编码器,成功地实现了自然图像分割任务的最先进(SOTA)结果。尽管Transformer在全局上下文中是熟练的,但在捕获细粒度细节方面存在局限性,特别是对于医学图像。此外,与SETR [33]类似,纯基于transformer的分割网络通常会产生令人不满意的性能。幸运的是,鉴于卷积强大的局部特征提取能力,一些具有CNN和Transformer混合架构的高级分割模型,如TransUNet [28]和LeVit-UNet [34],通过结合Transformer和CNN的互补优势,有效地对局部和全局上下文进行建模。另一方面,与自注意不同,基于深度卷积的注意揭示了远程信息依赖性,但在局部特征提取方面仍然存在不足。为了克服上述不足,本文在GLAM之前采用了一种基于CNN的LPM,以增强网络的局部特征提取能力,方便后续的远程建模。LPM在每次卷积后使用BN进行并行的3 × 3和1 × 1卷积进行归一化,其中Leakyrelu激活函数用于增强两个分支求和后网络的非线性拟合能力。需要指出的是,所构造的双分支结构使网络具有双尺度感受野,以更好地提取图像特征,然后在网络推理中根据重新参数化的方法将其合并为一个分支。综上所述,整个模块相当于一个串联的3 × 3卷积与Leakyrelu激活函数,有利于提高网络运行效率。
3.3. Global local attention module—3.3.全局局部注意模块
第一段怎么又review了?
医学图像分割中的目标分割区域通常表现出大小不一、边界模糊的特点。具有远程和本地建模能力的多尺度感受野可以赋予网络更高的性能增益。其中,传统的CNN在本地建模方面已经非常成熟,但仍然需要不断开发语义信息的远程依赖能力。一般来说,有两种方法来建立远程信息的关系。第一种是采用自注意机制来捕获远程依赖。不幸的是,这种方法是一个计算工作量,由于大量的网络参数,并具有二次计算的复杂性。此外,基于自注意的方法将二维图像视为一维序列,从而打破了图像的空间结构。第二种是使用最近提出的大内核深度卷积来构建远程相关性[13,30]。与自注意相比,大核卷积保留了图像本身的空间结构,因此更有利于建模局部和全局上下文。应该指出的是,当卷积核太大时,神经网络仍然具有高计算工作量。货车[32]创造性地将大型卷积核分为三个部分:深度(DW)卷积,深度扩张(DW-D)卷积和逐点卷积(即1 × 1卷积),因此与其他卷积相比,参数和计算工作量更少。然而,大核扩张卷积提取的特征的稀疏性导致该方法缺乏多尺度感受野。
受当前基于深度卷积的远程建模成就的启发,本文提出了一种基于深度卷积的新模型GLAM,如图2所示。这种模型由GAM和LAM组成,并借助多个深度卷积来获得网络的多尺度感受野。值得注意的是,该模块既不使用自注意机制,也不使用内核大小大于7的大型内核深度卷积。换句话说,我们的模块通过采用多个小内核深度卷积来构建多尺度感受野模型,从而打破了以前的大内核设计。在下文中,让我们提供更多关于GLAM的细节。
3.3.1.全局注意模块
很具体,这个部分是如何实现的
全局注意力模块(GAM)如图2所示。将模块输入表示为x ∈ RC×H×W,与流行的3 × 3深度卷积相比,首先采用5 × 5深度卷积以获得更大的感受野并输出信息x′。然后,通过3 × 3的深度方向卷积,进一步增加感受野,理论上其大小达到11 × 11。特别是,为了避免扩张卷积对特征的稀疏提取,该模块将一个3 × 3深度卷积与一个扩张卷积连接在一起,这使网络能够更好地对远程信息依赖进行建模。此外,为了避免网络建模能力的不足,采用1 × 1卷积来揭示通道间的信息交互,更好地融合了深度扩张卷积和深度卷积的输出。其输出直接作为注意力权重Att ∈ RC×H×W。最后,权重以逐元素的方式与输入x相乘以获得最终输出yG。在数学上,它可以写成:
在这里插入图片描述
其中fk×k(x′)表示核大小为k × k的标准卷积运算,DW表示深度方向卷积,DW-D表示深度扩张卷积,而DW表示元素方向矩阵乘法运算。

在这里插入图片描述
3.3.2.局部注意模块
受ResNet结构的启发,设计了一个局部注意模块(LAM),通过采用不同尺度的深度卷积来弥补GAM。首先,利用3 × 3深度卷积捕获编码后的局部语义信息,然后并行使用1 × 1和3 × 3深度卷积,使得网络具有不同大小的组合感受野,从而更有利于特征提取。鉴于ResNet在医学图像处理中的有效性,最终模块在并行深度卷积后利用跳过连接来保证模块输入和输出之间的恒定映射。将模块输入表示为x,输出表示为yL,LAM可以写为:
在这里插入图片描述
3.3.3.全局局部注意模块的输出
在上面的两个小节中,我们提供了GAM和LAM的输出,现在可以得出总输出了。
在已有的网络中,通常采用直接求和的方式将全局建模和局部建模模块融合,以获得跨通道交互的能力。然而,它不适合我们的网络,因为与局部注意力模块相比,全局注意力模块包含1 × 1卷积,这可能导致上述两个模块的输出中不一致的语义信息。直接求和和融合不可避免地会造成性能损失。为了克服这一不足,本文首先对GAM的输出进行1 × 1卷积,以调整各通道的语义信息,增强网络的表示能力,然后利用S型非线性激活函数将相应的输出收缩到区间[0,1]中,形成新的注意力权重。此外,与LAM的输出求和得到最终输出-----???----注意力权重求和表示???
yGLAM = sigmoid(f1×1(yG))+yL

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值