论文笔记TC-Net: A joint learning framework based on CNN and vision transformer for multi-lesion medical

        背景:随着医学影像技术的飞速进步,对医学图像精确分割的需求越来越大。然而,大多数现有的方法是无法捕获的局部和远程的依赖性信息。

        方法:在本文中,我们提出了一个优雅的分割框架,名为TC-Net的医学图像,它可以利用本地意识和远程依赖性的医学图像。至于局部感知的角度来看,我们采用了基于CNN的编码器和解码器结构。CNN分支使用卷积运算的局部性来挖掘医学图像中的局部信息。至于长范围依赖,我们构建了一个Transformer分支来关注全局上下文。此外,我们提出了一个局部感知和长距离依赖连接策略(LLCS)聚合从两个子分支获得的特征图。最后,我们提出了一个动态的循环局灶性损失(DCFL),以解决类不平衡的问题,在多病变分割。

        结果:使用两个眼底图像数据库和一个皮肤图像数据库对病变分割任务进行了综合实验。TC-Net在IDRiD和DDR数据库上的平均像素准确度度量中分别达到0.6985和0.5171的分数。此外,在皮肤图像数据库上,TC-Net达到了0.8886的平均像素精度。实验结果表明,与其他深度学习分割方法相比,该方法具有更好的分割效果。此外,建议的DCFL实现更高的性能比其他损失函数在多病变分割。

        意义:TC-Net是一个有前途的新框架,可用于多病变医学图像分割和许多其他具有挑战性的图像分割任务。

基于CNN的方法、Vision Transformer和我们的方法获得的多病变分割结果的示例

        基于CNN的方法的感受野不足以捕获医学图像的全局特征,因此,这种方法错误地将大的背景区域划分为出血(HE),Transformer有效地避免了眼底图像中背景的错误分割结果。        

        与基于CNN的方法相比,Transformers缺乏捕获局部特征的能力,在眼底病变的分割治疗中,Transformers倾向于错误分类局部病变。如图所示,Vision Transformer将硬渗出物(EX)像素误分类为软渗出物(SE像素,对于局部病变,CNN的分割结果优于Transformers

         为了克服上述缺点,我们提出了一个混合架构,名为TC-Net同时提取局部信息和远程依赖性的医学图像。首先,TC-Net包含两个分支:CNN分支对下采样的医学图像进行操作,以检索局部区域的特征,并且Trans分支处理图像块,以对区域之间的全局上下文信息进行建模。

        为了连接从两个分支中得到的特征,受DANet的启发,提出了一种局部感知和远程依赖连接策略(LLCS)。通过融合两个分支模块的输出,LLCS块可以集中于医学图像中的局部特征和长程依赖性两者以实现互补融合。最后,从LLCS块获得的互补特征图被输入到分割头中以产生每个掩模的置信度分数。

        我们的主要贡献可归纳如下:

                1)提出了一种同时利用局部信息和全局相关性的医学图像分割方法。为了实现这一想法,提出了一种包括CNN分支和Transformer分支的混合结构,以同时提取区域特征和建模远程上下文;

                2)本文提出了一种基于局部感知和长距离依赖的关联策略,该策略从通道和空间注意的角度设计了三条并行路径,有效地结合了两个分支的特征;

                3)提出了一个动态的循环焦点损失,以减轻类不平衡问题在多病变医学图像分割。

提出的TC-Net概述

        如上图所示,提出的TC-Net由四个组件组成:混合编码器模块、混合解码器模块、LLCS块和分段头。混合编码器由CNN编码器和Transformer编码器组成,分别捕获医学图像中的局部信息和远程依赖关系。采用混合解码器从混合编码器提取的高级语义特征中恢复空间细节。然后,LLCS被应用于级联从混合解码器获得的特征图。最后引入分割头作为分类器,得到最终的分割结果。

        分支1:CNN编码器包括三个编码器层,在实践中,使用预训练的ResNeSt块作为该模块的主干。ResNeSt块起源于ResNet ,并在不同分支上集成了一个分割注意力机制,以捕获跨特征的交互信息。

        分支2:Transformer编码器由一个基本块和四个Transformer块组成。基本块接收图像块并获得特征图X。基本块由一系列卷积层、BN和3 × 3最大池组成。然后,特征图X被馈送到四个Transformer块中以捕获长程依赖性。具体地,Transformer块包括剩余块和Transformer模块。残差块将特征图X变换为中间特征图X1。语义分割需要在像素级进行密集预测,以将每个像素分类为背景或前景。由于其时间复杂度,将Transformer架构应用于图像语义分割具有挑战性。在本文中,受Ref.论文影响,我们引入了多头可挤压自注意(MHSSA)机制,而不是最初用于Transformer的多头自注意(MHSA)机制,如下图所示:

 Locality-aware and long-range dependency concatenation strategy

局部感知和长距离依赖连接策略

         Transformer需要将特征图平坦化以计算注意力矩阵,这导致信道信息在一定程度上丢失。同时,CNN模型一次处理一个邻域区域,这不足以捕获非局部特征。因此,给定来自CNN解码器的特征和来自Transformer解码器的特征,我们融合了沿着信道和空间维度的局部和长程依赖性信息。如上图所示:所提出的LLCS块由以下三条路径组成:空间路径、通道路径和融合路径。

   总结     

        在这项工作中,提出了TC-Net,这是一种新型的端到端分割网络,它将CNN和Transformer架构集成到一个统一的医学图像分割架构中。为了同时对本地信息和远程依赖关系进行建模,我们设计了混合编码器和混合解码器。此外,我们提出了一种新的特征融合策略LLCS,用于合并CNN和Transformer分支的不同特征图,以获得更精细的分割结果。此外,为了解决类不平衡的问题,我们提出了DCFL函数。最后,我们评估了TCNet的两个应用程序,即眼底图像和皮肤图像的多病变分割。实验结果表明,TC-Net的分割性能优于其他竞争对手的分割方法。该方法是一个通用的分割框架,也可以应用于其他类型的生物医学图像的分割。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值