《D-Net: Dynamic Large Kernel with DynamicFeature Fusion for Volumetric Medical ImageSegmentat》全文翻译

【Ttitle】

具有动态特征融合的动态大内核,用于体积医学图像分割

【Abstract】

        分层变换器由于其巨大的感受野和有效利用全局远程上下文信息的能力,在医学图像分割方面取得了巨大的成功。 卷积神经网络 (CNN) 还可以通过使用大内核来提供大的感受野,使其能够以更少的模型参数实现有竞争力的性能。 然而,由于使用固定大小的内核,结合大卷积核的 CNN 在自适应捕获形状和大小变化较大的器官的多尺度特征方面仍然受到限制。 此外,他们无法有效地利用全局上下文信息。

        为了解决这些限制,我们提出了动态大内核(DLK)和动态特征融合(DFF)模块。 DLK 模块采用多个具有不同内核大小和膨胀率的大内核来捕获多尺度特征。 随后,利用动态选择机制根据全局信息自适应地突出最重要的空间特征。 此外,DFF 模块被提出根据全局信息自适应地融合多尺度局部特征图。 我们将 DLK 和 DFF 集成在分层 Transformer 架构中,开发出一种新颖的架构,称为 D-Net。 D-Net 能够有效地利用多尺度的大感受野并自适应地利用全局上下文信息。

         大量的实验结果表明,D-Net 在腹部多器官分割和多模态脑肿瘤分割等两个体积分割任务中优于其他最先进的模型。 我们的代码可在 https://github.com/sotiraslab/DLK 获取。

【Introduction】

         视觉变压器(ViTs)的发展导致了计算机视觉任务的显着改进[8]。 ViTs成功的关键因素是注意力机制,使基于 ViT 的模型具有较大的感受野,能够利用整个输入图像的全局上下文信息。 然而,由于高分辨率图像中自注意力的高计算复杂性,ViT 在作为通用骨干网方面面临挑战。 为了降低 ViT 的复杂性,人们提出了分层 ViT [16,20,22]。 它们在对各种尺度的密集特征进行建模时更有效,以线性复杂度近似自注意力。 由于其卓越的性能,分层 ViT 最近已被用作医学图像分割的骨干 [3,9]。 然而,注意力机制通常限制基于(分层)ViT 的模型有效提取本地上下文信息。

        另一种广泛使用的主干网络是卷积神经网络(CNN),在局部特征提取方面具有优势。 然而,CNN 的感受野受到小卷积核的限制。 为了扩大它们的感受野,大型卷积核(LCK)被引入并集成到 CNN 架构中 [7,15,17]。 目前,基于 LCK 的 CNN 在医学图像分割中引起了人们的关注[2,13]。 然而,这些网络依赖于单个固定大小的大内核来进行特征提取,这限制了它们从具有较大形状和大小的器官间和受试者间变化的器官中捕获多尺度特征的能力。 此外,它们缺乏增强局部特征和全局上下文信息之间交互的机制。

        为了解决这些限制,我们提出了动态大内核(DLK)和动态特征融合(DFF)模块。 在 DLK 中,我们建议使用多个不同大小的大深度卷积核。 这些内核使网络能够捕获多尺度上下文信息,有效处理形状和大小的巨大变化。 我们没有像 Atrous Spatial Pyramid Pooling (ASPP) [5] 或其他并行设计 [23] 那样并行聚合这些内核,而是顺序聚合多个大内核以扩大感受野。 随后,遵循动态机制的思想[6,14,24],我们引入了一种空间动态选择机制,基于全局上下文信息自适应地选择信息最丰富的局部特征。 此外,采用DFF模块基于全局信息自适应融合多尺度特征。 在融合过程中,使用通道动态选择机制来保留重要的特征图,随后使用空间动态选择机制来突出重要的空间区域。 我们将所提出的 DLK 和 DFF 模块集成到分层变压器架构中,称为 D-Net,用于 3D 体积医学图像分割。 我们在两个分割任务上评估了 D-Net:腹部多器官分割和脑肿瘤分割。 所提出的模型优于基线模型。

        我们的主要贡献有三个:(i)我们提出了一个用于通用特征提取的动态大内核模块。 DLK 采用多个大型卷积核来捕获多尺度特征。 随后,它利用动态选择机制,根据全局上下文信息自适应地突出显示最重要的空间特征。 (ii)我们提出了用于自适应特征融合的动态特征融合模块。 DFF 旨在适应通过动态选择机制基于全局信息主动融合多尺度局部特征。 (iii) 我们提出了用于 3D 体积医学图像分割的 D-Net。 D-Net 旨在通过将 DLK 和 DFF 模块合并到分层 ViT 架构中来采用分层 Transformer 行为,以较低的模型复杂度实现卓越的分割精度。

图 1. DLK 的架构。 特征图 Xl 1 和 Xl 2 分别通过 5 × 5 × 5 DWConv 和 7 × 7 × 7 DWConv 从输入特征 Xl 中提取。 生成动态选择值 w1 和 w2 以校准特征 Xl 1 和 Xl 2。

【Method】

2.1 动态大内核(DLK)

        DLK。 我们提出动态大内核(DLK),通过大感受野自适应地利用空间上下文信息(图 1)。 具体来说,使用多个大深度内核来提取多尺度特征。 此外,我们不是并行合并多个内核,而是级联这些大内核,并不断增加内核大小和增加膨胀率。 这种设计有两个优点。 首先,上下文信息在感受野中递归聚合,允许有效感受野的大小逐渐增长[18]。 其次,在更深更大的感受野中提取的特征对输出的贡献更大,使 DLK 能够捕获更精细、信息更丰富的特征。 在我们的工作中,我们使用两个具有大内核的深度卷积 (DWConv) 层:DWConv(5,1),具有扩张为 1 的 5 × 5 × 5 内核,以及 DWConv(7,3),具有 7 × 7 × 7 层 l 中的输入特征 Xl 具有扩张 3 的内核:

通过沿连接特征的通道应用平均池化 (AVP) 和最大池化 (MAP) 进行有效建模 [Xl 1;Xl 2]

然后使用 7 × 7 × 7 卷积层(Conv7)让这些信息在不同的空间描述符之间交互,并使用 Sigmoid 激活函数来获得动态选择值 w1,w2:

通过利用这些选择值来校准它们,自适应地选择来自不同大内核的特征。 最后,应用残差​​连接作为

 DLK模块。 DLK 模块是通过将 DLK 集成到两个线性层(1×1×1 卷积层;Conv1)以及中间的 GELU 激活来构建的。 还应用了剩余连接。 因此,DLK 模块中第 l 层的输出可以计算为

DLK 块。 为了利用分层 ViT 的扩展能力,DLK 块是通过用所提出的 DLK 模块替换标准分层 ViT 中的多头自注意力来构建的。 生成的 DLK 块由 DLK 模块和 MLP 模块组成。 与分层 ViT 块类似,在每个 DLK 模块和 MLP 模块之前应用层归一化 (LN) 层,并在每个模块之后应用残差连接。 因此,第 l 层和第 (l + 1) 层中的两个连续 DLK 块可以计算为 

2.2 动态特征融合(DFF) 

        我们提出了一个动态特征融合(DFF)模块来基于全局信息自适应地融合多尺度局部特征(图2)。 它是通过在过程中根据全局信息动态选择重要特征来实现的融合。

图 2. DFF 模块的架构。 全局通道信息wch是从特征图Fl 1和Fl 2中提取的。这些特征图被校准,并且卷积层仅选择信息丰富的特征来生成特征Fl。 在另一条路径中,从Fl 1 和Fl 2 中提取全局空间信息wsp,并用于重新校准特征Fl以生成自适应融合特征F^ l 。 

        具体地,特征图Fl 1 和Fl 2 沿着通道连接。 为了确保后续块能够采用融合特征,需要一种通道减少机制,将通道数量减少到原始通道数量。 DFF 中的通道缩减不是简单地使用 1 × 1 × 1 卷积,而是由全局通道信息 wch 引导。 通过级联平均池化 (AVGPool)、卷积层 (Conv1) 和 Sigmoid 激活来提取此信息以描述特征的重要性。 

融合特征通过全局通道信息进行校准。 随后,利用 1 × 1 × 1 卷积层(Conv1)根据特征图的重要性来选择特征图。 该通道信息将指导卷积层保留重要特征,同时丢弃信息较少的特征。

 为了对局部特征图之间的空间相互依赖性进行建模,全局空间信息 wsp 由 1×1×1 卷积层 (Conv1) 和来自特征图 Fl 1 和 Fl 2 的 Sigmoid 激活捕获。该信息用于 校准特征图并促进对显着空间区域的强调。

2.3 D-Net架构 

        D-Net 的整体架构由编码器、瓶颈、解码器和显着层组成(图 3)。 显着层用于提取显着的空间来自原始图像的特征,编码器-解码器架构负责学习分层特征表示。

图 3.D-Net 的架构。 D-Net 由编码器、瓶颈、解码器和显着层组成。 每个阶段使用两个连续的 DLK 块进行特征提取。 每个 DLK 块由一个 DLK 模块和一个 MLP 模块组成。 

Encoder。 我们没有展平补丁并用线性层投影它们,而是利用步幅为 2 的大型 7×7×7 卷积将图像划分为大小为 H 2 × W 2 × D 2 的特征嵌入。 然后将这些特征嵌入投影到 C 维向量 (C = 48)。 在每个阶段,两个连续的 DLK 块被组合以提取上下文信息。 为了在下采样块中跨通道交换信息,我们使用内核大小为 2 × 2 × 2 且步幅为 2 的卷积层来缩小特征图并将通道数量增加 2 倍。 每个阶段的输出特征图的数量为 H 4 × W 4 × D 4 ×2C、H 8 × W 8 × D 8 ×4C、H 16 × W 16 × D 16 × 8C 和 H 32 × W 32 × D 分别为32×16C。

Bottleneck。 两个连续的 DLK 块用于瓶颈。 输入和输出特征的尺寸均为H 32 × W 32 × D 32 × 16C。

Decoder。在每个阶段,使用步幅为 2 的 2 × 2 × 2 转置卷积来放大特征图并减少通道数系数为 2。然后,这些上采样的特征通过 DFF 模块内的跳跃连接与编码器的特征融合。 然后使用两个连续的 DLK 块。 每个阶段输出特征图的尺寸为 H 16 × W 16 × D 16 ×8C、H 8 × W 8 × D 8 ×4C、H 4 × W 4 × D 4 ×2C 和 H 2 × W 2 分别为 × D 2 × C。 最后,使用转置卷积层将特征图上采样到 H×W×D×C 的尺寸。

Salience layer。卷积块由两个连续的 3×3×3 卷积层组成,用于从输入图像生成尺寸为 H×W×D×C 的特征。 这些功能与 DFF 模块内解码器的功能融合。 然后使用另一个卷积块来捕获更精细的特征。 最后,使用 1×1×1 卷积层来生成体素分割预测。

【Experiments and results】

数据集。 我们对两个公开可用的数据集进行了实验。 第一个是 MICCAI 2022 AMOS 挑战数据集(AMOS 2022)[12]。 它由 300 张多对比腹部 CT 图像组成,其中手动注释了 15 个解剖器官,用于腹部多器官分割。 通过 MONAI4 实现的管道对 3D 体积进行预处理并增强为尺寸为 96×96×96 的体积块。 第二个是医学分割十项全能 (MSD) 脑肿瘤挑战数据集 [1]。 它由 484 名受试者组成,每个受试者都有四种 3D MRI 模式(FLAIR、T1w、T1gd、T2w)和三种前景注释:水肿 (ED)、增强肿瘤 (ET) 和非增强肿瘤 (NET)。 通过 nnUNet 管道将数据预处理为尺寸为 128 × 128 × 128 的体积块 [11]。

实施细节。 D-Net 使用 PyTorch5 实现。 使用骰子损失和交叉熵损失的组合作为损失函数。 在腹部多器官分割中,使用An AdamW作为优化器。 初始学习率设置为 0.0001,并应用学习率衰减策略 (ReduceLROnPlateau)。 对于脑肿瘤分割,我们遵循 nnUNet [11] 中的协议。 SGD 被用作优化器。 初始学习率设置为 0.001,并使用多元学习率调度器进行衰减。 为了公平比较,所有实验均采用相同的设置并由我们实施。

主要结果。 我们将 D-Net 的性能与最近最先进的分割模型进行了比较,包括 3D U-Net (nnUNet) [11,19]、TransUNet [4]

表1 DNet、DLK-Net等模型在2022年AMOS多器官分割任务上的分割性能和模型复杂度比较(粗体代表最好结果,下划线代表次优结果)。

表2 D-Net、DLK-Net等模型在MSD多模态脑肿瘤分割任务上的分割性能比较(粗体代表最好结果,下划线代表次优结果)。

 

TransBTS [21]、UNETR [10]、nnFormer [25] 和 3D UX-Net [13] 在两个分割任务上。 表1显示了AMOS腹部多器官分割任务的性能比较。 D-Net 以相对较少的 FLOP 和最少的参数数量实现了最佳的整体性能。 此外,D-Net 在所有特定器官分割任务中的 Dice 分数均显示出显着改善。 表 2 显示了 MSD 脑肿瘤分割任务的结果。 与其他分割方法相比,D-Net 在所有分割任务中都表现出了卓越的性能。

消融研究。 对于消融研究,我们通过从 D-Net 中删除 Salience 层并将每个 DFF 模块替换为串联层,然后是 1 × 1 × 1 卷积层,将 D-Net 解构为 DLKNet。 与其他基线相比,DLK-Net 在两个分割任务中都表现出了更高的分割精度,同时具有最低的模型复杂度(表 1 和表 2)。 

【Conclusion】

我们通过将动态大内核模块和动态特征融合模块合并到分层变压器架构中,引入了用于体积医学图像分割的 D-Net。 采用动态大内核块作为通用多尺度局部特征提取和自适应全局空间信息利用的基本块。 此外,提出了动态特征融合模块用于自适应特征融合。 D-Net 在腹部多器官分割和脑肿瘤分割这两个分割任务上表现优于当前流行的基线。 我们相信 DNet 有潜力在各种医学图像分割任务上实现有前景的分割性能。

图 4. 2022 AMOS 上的多器官分割和 MSD BraTS 数据集上的脑肿瘤分割的定性表示。 D-Net 显示出比 U-Net 和 nnFormer 更好的分割质量。 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

北洋的霞洛

觉得不确可以给个鼓励小费

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值