论文笔记MultiTrans: Multi-scale feature fusion transformer with transfer learning strategy

MultiTrans:带迁移学习策略的多尺度特征融合Transformer用于头颈部CT图像的多器官分割

        精确分割头颈部危及器官(OARs)的放射治疗是头颈部恶性肿瘤治疗的重要手段之一。在常规临床实践中,OAR由医生手动分割,以避免放疗引起的不可逆不良反应,耗时费力。

        为了辅助医生进行OAR分割,提出了一种具有多尺度特征融合模块的MultiTrans框架。在多尺度特征融合模块中,将原始图像和CNN的特征图融合在一起,形成复合特征图,以获得更完整的高分辨率全局信息。此外,MultiTrans还通过在跳跃连接中使用由复合特征图恢复的特征图,充分利用了全局信息。多尺度交互式高分辨率信息可以充分利用医学图像信息,更全面地获取特征,从而提高分割精度。

        实验结果表明,MultiTrans算法对所有器官的平均Dice评分系数(DSC)为74.01%,有效地提高了分割精度。此外,我们提出了一种小器官的迁移学习策略,通过将数据量大的器官的权重参数转移到数据量小的器官,以加快MultiTrans的收敛速度,减少MultiTrans对数据量的需求。该策略明显提高了小器官的平均DSC,使小器官分割更加准确。建议的框架和迁移学习策略有可能帮助医生在OARs划定。

        目前,自动器官分割方法可以分为四种类型:基于灰度、基于图谱配准、基于变形模型和基于深度学习

        1.由于CT图像分辨率有限,器官与周围软组织灰度相似,器官边界模糊。因此,基于灰度的分割方法在头颈部CT图像的器官分割中效果较差。

        2.同时,不同个体之间头颈部器官的一致性较差,基于图谱的方法不适用。

        3.基于形变模型的分割需要人工设计初始轮廓,如果待分割器官个体差异过大,分割精度也会受到影响。Fritscher等人将基于图谱的分割方法和基于形变模型的分割方法相结合,对头颈部器官进行分割。虽然网络的鲁棒性得到了一定程度的提高,但个体差异过大所带来的负面影响仍然无法消除。

        4.近年来,基于深度学习的分割方法得到了广泛的研究。其中,卷积神经网络(CNN)利用卷积获得图像的高层语义信息,有效挖掘图像中的信息,使其在医学图像分析领域得到广泛应用。在CNN中,3D UNet,FocusNet,FoucusNetV2,OrganNet 2.5D和其他网络出现用于头部和颈部分割。然而,这些网络通过设计卷积层在不同的空间位置使用共享权重,导致在处理形状和位置灵活的结构时缺乏空间注意力,从而降低了网络性能。

        为了解决上述问题,我们提出了一个名为MultiTrans的框架。在TransUNet架构的基础上,通过融合U型网络和原始图像的特征提取全局信息。然后通过切片获得原始尺寸的高分辨率全局信息并将其馈送到MultiTrans。因此,我们提出的模型可以充分利用所提供的医学图像信息,并增加了一个多尺度特征融合模块,进一步使网络能够更全面地获得全局上下文信息,最终提高了模型对大多数头颈部器官的分割精度。此外,我们还提出了一种迁移学习策略通过将数据量大的器官的权值参数作为数据量小的器官的预训练权值参数,有效地提高了模型对小器官的分割性能。

        迁移学习(TL)是机器学习中的一个术语,用于存储现有任务的解决方案模型,并将其应用于相关但不相同的任务。在医学图像分析领域,如分割任务,需要手动绘制结果作为金标准,并且很难获得足够数量的高要求数据集。迁移学习可以帮助模型在小数据集上进行充分训练。与基于ImageNet的迁移学习由于自然图像数据集和医学图像数据集之间的域差异而影响性能不同,本文使用头颈部其他器官在同一数据集上预训练的模型参数来实现无域差异的迁移学习。

        为了探索Transformer在医学图像分析领域取代CNN的可能性,Christos等人使用了三种初始化策略来比较Transformer和CNN在公共数据集上的性能,包括:(1)随机初始化;(2)迁移学习中ImageNet预训练的结果;(3)自我监督的预训练。实验结果表明,在随机初始化策略下,CNN的性能远高于Vision Transformer(ViT)。虽然ImageNet预训练后的模型被用作初始化模型,但CNN和ViT都有显着的好处,两者的性能相似。因此,当使用由自然数据集预训练的模型时,ViT可以取代CNN,而不会影响其在医学图像数据集上的性能。

        编码器采用TransUNet编码器结构,混合了CNN和Transformer结构,CNN模块包含四个编码器块,每个编码器块由卷积层、组归一化层和ReLU层组成。最大池化层在第一编码器块之后。CNN模块通过卷积层的连续堆叠来加深网络深度,并可以从输入中提取丰富的语义信息。maxpooling层降低了图像分辨率,增加了感受野,可以使提取的语义特征更加抽象。CNN模块的输出被整形为2D向量,然后馈送到具有位置嵌入的Transformer结构中,以获得CNN提取的语义信息的全局信息。

        解码器部分包括空间恢复模块和三个解码块。空间恢复模块将Transformer的2D输出向量整形为具有空间信息的3D张量,并将其通道维度映射到512,以便于后续通过跳过连接进行特征融合。三个解码器块都具有相同的结构,包括单个上采样层和两个卷积层,之后是归一化层。上采样逐步恢复特征图像分辨率,得到与输入图像大小相同的预测分割标签图像。 

多尺度特征融合模块

        TransUNet使用CNN来提取有限的多尺度特征。然而,Transformer只能从CNN输入低分辨率的局部信息,然后提取全局信息,因为参数数量庞大。为了增强网络提取图像语义信息的能力,更好地科普目标大小和形状多样性对分割的影响,提高分割性能,本文提出了一种多尺度特征融合模块,其具体结构如图上所示。

        具体地,首先,分别取出编码器的CNN模块中的前两个编码器块获得的原始分辨率图像信息和特征图。然后,选择合适的patch size来划分每个特征图,并通过卷积层将其映射到相同的通道号。分割后的特征图在宽度和高度维度上被平坦化以形成2D向量,并且将可学习的相对位置信息添加到它们。然后,将不同分辨率的二维矢量在通道数维度上进行拼接融合,输入到12层Transformer块中,得到多尺度特征融合后的全局信息。最后,根据融合顺序和大小对Transformer的输出进行切片,以恢复输入特征图,并作为跳过连接的编码器的特征图。

        多尺度特征融合模块充分利用原始医学图像信息,将原始分辨率图像与从CNN中提取的多层局部信息在通道维度上直接拼接,融合不同层次的全局信息和局部信息,为头颈部分割任务提供更丰富的特征信息。但是,由于Transformer的参数数量较多,为了尽量减少参数的数量,只选择与全尺寸图像向量大小相同的特征向量作为跳过连接特征图的输入,其余的仍然使用CNN提取的特征图作为跳过连接特征图。这样,除了向网络中添加高分辨率的全局信息外,还充分利用了多尺度特征融合的语义信息。

迁移学习

        由于水平切片数据量小,使得模型不能很好地学习相应的特征,使得模型在小器官中的分割性能较差。为了解决这个问题,我们在这项工作中提出了一个迁移学习策略。首先对每个器官分割模型分别进行训练,然后选择切片数较多的器官将其权值参数应用于切片数较少的器官(视交叉等)迁移学习。迁移学习的应用可以在不出现过拟合的前提下,加快模型的收敛速度,减少训练模型所需的数据量.此外,还采用简单的平均模型权重进行比较,探讨不同权重的模型参数组合对迁移学习效果的影响。

数据集及实验

        所用数据集由423例在我院接受放疗的HNC患者的CT扫描组成,其中多个器官由经验丰富的医生手动分割。为每名患者描绘了在头颈部放射治疗计划中要考虑的20个OAR,包括脑干、(左和右)眼睛、(左和右)晶状体、(左和右)下颌骨、(左和右)视神经、视交叉、(左和右)腮腺、垂体、脊髓、(左和右)颞下颌关节、(左和右)颞叶、甲状腺和气管。CT切片具有3mm的切片间厚度。为了使数据集更方便使用,数据集按器官分类,即每个器官的所有患者都在同一文件夹中。

不同网络的分割结果可视化

 

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值