《 FCA-Net:Fullycontext-aware feature aggregation networkformedical segmentation》论文阅读

文章来源:Redirecting

摘要:

准确的对皮肤肠镜图片进行图像分割,有利于后续的治疗。虽然高效的皮肤和息肉图像分割方法已经提出了一些,但仍然面临着巨大的挑战。皮肤损伤和息肉经常又不同的大小和形状,在背景和损伤区域之间缺乏一个清晰的边界。未来解决这个问题,本文提出了一个全局特征提取网络。该网络又三个创新设计:1.边界预测模型(EPM),2.边界主导特征提取模型(BFAM),3.迭代上下文模型(ICAM)。EPM提取初始边界从高维和低维特征中提取,BFAM分离边界信息到分割网络中,加强这些不同层次的特征,更好的保护边界细节,然后重新校准分割对象。ICAM利用全局上下文提取方法,更好挖掘上下文特征中的依赖关系,在不同尺度上进行更好的特征融合。在两个数据集类别上进行了大量的实验证明本文提出的模型超过了当下图像分割中最先进的图像分割方法。

介绍

(现实作用)医学图像分割是一个具有挑战性并且十分重要的话题,旨在精确地对感性去的医学图像部分进行分类。在医学诊断方面,医学图像分割能帮助以上更好的理解和分析患者的疾病装太,通过尊却的图像分类,例如皮肤损伤和息肉部分,以上能获取更多的细节和信息,以使得更加尊却的诊断。另外,它能让治疗方案和手术指导赋能。例如,结肠镜检查作为检测结肠疾病的标准手段之一,能准确定位早期的息肉,有利于临床阻止癌症的病变。简单的来说,从皮肤检测图像中进行分割是一个重要的诊断和治疗皮肤疾病的方法。他们能很好帮助探测疾病的形状大小,定位促进医疗计划和手术进程。

       精确的边界提取 或者像素层分类是损伤部位分类的主要步骤,基于例如CT,核磁共振(MRI),超声波图像等等的医学图像。然而医学图像分割面临着很大的挑战,包括复杂多变的解剖结构,图像伪影,低对比度,和不同成像方式的差异等等。在过去,这些结构和区域是医生手动的标注,因此有了发展机器自动准确分割图像的算法的需求。在图像分割领域,产生了各种各样的技术和算法,例如基于阈值的方法,基于区域位置的方法,基于边界的方法,分解模型和机器学习方法等等,每个方法有它的优点和缺陷,都应用在特定的分割任务当中。随着电脑版本的迭代更新,机器学习深度学习技术的巨大发展让医学图像分割领域利用深度学习从大量医学分割图像中提取具有判别性的特征,能优化图像分割的性能。然而,着仍然很难捕捉全局特征,因为在深度卷积神经网络中本身的局限性。为了提升神经元容纳能力,大量改良版的卷积神经网络随后被提出。例如,FNCs,他们用全局卷积神经网络替代CNN,在UNet和UNet++网络中,他们利用下采样和上采样操作拓展了感受野。同时,各种样的注意力模型的发展使得更好的捕捉全局信息。例如,陈等人采用了金字塔池(ASPP)模型和利用深黑卷积来捕捉上下文信息。在动态图消息传递网络中,作者用注意力机制,基于相似性赋予权重给结节和边界,最初在语义分割方面这些方法能得到很好的结果。

        Transformer能高效的捕获长距离的依赖关系,能通过引入注意力机制在自然语言处理领域让全局模型赋能。在(引用这篇文章的)这个版本的Transformer,是第一个应用Transformer架构在机器视觉的。它把图片分成块状,并利用注意力机制来线性嵌入这些板块。让模型来整合相关的板块,基于注意力机制和捕获上下文相关关系在不同的区域上面。下面几个其他基于ViTransformer的方法被提出来,他们也获得了很好的表现。不幸的是,长范围的依赖捕捉,对于局部可能带来扰动。模糊物体边界。另外,病理区域典型地表现在不同区域,并且便随着大量低对比度的边界和背景环境。在各种不同的清晰度和引入人工标注的潜在偏见进一步引入了额外的干扰。

        因此,能够高效展现长距离关系和边界信息,并且能体现局部特征的方法模型的发展仍然是一个挑战。在引文[20]中,一个先进的局部解码器,可以强化局部特征,减轻注意力分散的算法被提出来。然而,生成的局部特征信息直接传送,对于Transformer来高效捕获局部信息,结合全局信息线索是不足的。这不平衡可能导致一个全局信息过拟合的状态,因此会使重要的部分黯然失色。尽管大量的模型被提出来整合Transformer和CNN架构,利用各自固有的优势。这种方法经常被提出来这类方法通常优先分割整个病理区域,而忽略了有价值的边界信息。FAN等人用反向注意力来获取边界信息,因此促进病理部分的分割。Qiu等人利用文本特征阈值结合解码器来融合上下文特征,从多程度产生一个结果预测,作为初始引导图。Lin等人用CNN,ViT和一个专业的边界探测器来获取高精度识别。另外,在伪装目标检测领域,Hu等人利用地带反馈来自适应细化低分辨率特征,通过用高分辨率信息来避免边界模糊。尽管这些模型有所成效,但这也遇到了一些瓶颈:缺乏清晰的边界,在病理区和背景中。尺寸不同的病理区。有很难融合的带有细节信息的低分辨率特征,和带有丰富语义的高分辨率特征。

        在这篇文章中,我们提出了完全上下文特征融合网络(FCA-Net)来进行图像分割。总的来说,这篇文章的主要贡献如下:

1.我们提出了一个叫FCA-Net的网络。这个框架利用金字塔transformer作为编码何蓉三个重要的模型(分别是EPM,BFAM,ICAM)(前文有所提及),从而精确分割病理区域。

2.我们发展了一个叫边界预测的模型,来产生初始边界引导图。为了从分利用边界信息,以及多种尺寸大小的特征,我们提出了一个边界特征引导,来赛选融合多尺度特征。

3.我们设计了全文融合迭代模型来充分利用文本信息和不同尺寸特征之间的依赖关系,这克服了不准确的定位和边界预测,从而提升了分割模型的性能。

4.大量的实验的进行是基于公认的可用的结肠镜检查数据集和三个皮肤病理数据集,证明了所提出的方法FCA-Net比别的先进的图像分割方法要好。另外,复杂的消融性实验证明了在模型中的三个部分是有效的。

相关工作

视觉transformer(ViT)

Transformer是一个主流模型在自然语言处理领域中,结合编码和解码结构。这编码结构让输入语句,通过一个带多头注意力机制的神经反馈网络来处理(MHSA),其中MHSA层处理复杂多样的权重和全局可容纳领域,让他们能够更加灵活高效。每一层每一层编码器独立地处理不同部分 的输入语句,让这些模型捕捉全局和局部信息。由于Transformer在各种NLP任务中成功的鼓舞,大量基于Transformer的方法在机器视觉处理任务中出现。,例如前面提到的[15]就是以ViT模型为基础,Pan等人把Transformer与池化层相结合,让模型在不同的尺寸大小区域来预测和处理。捕捉图片细节,更加全卖你的理解文章信息。这CNN的金字塔结构被引入到Transformer的主心骨中。在金字塔视觉Transformer(PVT)和PVT v2中,每个注意力头集中在不同的啊小特征子空间中,捕捉上下文关系,在不同的程度上。另外,它利用了分布式可容纳区域,其中注意力通过不同层引入全局上下文到每个位置的特征呈现中来相互作用。这金字塔结构对于Transformers和各种下采样任务是合适的。另外,又各种各种的基于Transformer的医学分割模型被提出。他们的成功的应用,有效地证明了作为机器学习编码的Transformers结构在医学图像分割领域大有作为。

图像边界分割

图像边界分割在计算机视觉上是一个重要的研究方向,,在各种例如目标检测,图像分割,场景理解方面扮演重要的角色。因此学习额外的边界信息已经展现出杰出的性能,在图像分割方面。在早期的基于全卷积神经网络(FCN)的语义分割研究中,Bertasius等人利用后处理来细化结果,在这神经网络背后,通过利用边界信息。Ding等人提出了学习边界信息作为额外的分割类,让网络学习为图像分割学习外部边界。Zhen等人专门设计了一个边界流,它结合了边界模型和分割模型任务。想象一下目标边界融合高频率信息和目标主题融合低频率信息在一张图片中,他们解除了主体和边界的练习通过不同的监督方法,和用专业的边界监督来限制它。在Batformer中,一个边界注意 局部Transformer用于自适应边界定位和周围特征提取的方法被提出。然而仅仅依赖低分辨率特征来产生边界框图,导致不准确的结果,因为它引入了许多非主体边界信息,尽管在边界信息上很丰富。因此,高分辨率信息分割需要来协助探索边界特征相关的分割任务。

跨尺度特征融合

跨尺度特征融合是在当代网络架构中普遍存在的,例如,在UNet和特征金字塔网络(FPN)中,长跳连接被应用到转移特征图从编码器到解码器中相应的层,使得同时获取到高分辨率特征和高分辨率语义特征。zhao等人设计了一个减法装置,把他用在每一对临近的特征图上。通过多像素,多尺度的剑法操作,它高效地捕获了跨不同层次结构从低级到高级的补充信息。在Denseaspp中,多线路并行卷积层通过不同的扩大比率,被应用到捕获多尺度上下文信息,并且他们进一步连接,通过使用密集连接机制来丰富和加强特征。在Swin-Unet中,U形网络的编译码结构被swin Transformer替代了。另外,长跳连接用于减少不同一致性层之间的信息差异。Fan等人用并行译码到在高层特征的渐进聚合,旨在极小化不同特征层之间的信息鸿沟。Dong等人利用相似性融合模型,通过非局部和图卷积层来探索局部像素层次信息和全局语义信息。然而,上述关于跨尺度特征融合的研究主要围绕构建复杂的路径来从不同的核、组或层中获取特征。另外,这些融合方法绝大多数是基于简单的操作,例如注意力或一系列相互连结的,其将聚合限制为的线性组合修复了特征映射,此外,缺乏考虑关于这些组合功能对特定对象的适用性或语义语境。

方法论

在这个部分,我们介绍FCA-Net方法。像图2展现的一样,我们利用PVT v2作为我们的编码器模型,它有效地降低了计算复杂度和推理时间,相比其他先进的算法,获得了更好的表现性能。神经网具体来讲,边缘预测模型(EPM)利用最低和最高层次的由编码器生成的特征来产生个初始的边界向导图。这个边界引导特征聚合模块(BFAM)基于初始边界引导图对多尺度特征进行分层选择性聚合。迭代上下文聚合模块(ICAM)采用全感知的方法,有效地将融合的多尺度特征与最低层次特征进行聚合,增强了模型的分割能力

Transformer 解码器

如上提到的PVT v2能够捕获图片中的局部一致性特征,然而保持与CNN相似的复杂度。灵感来自PVTv2,并且为了分割定制的PVT v2,我们将他作为编码器并评估最后的分类层和预测层,来保护四个独特多尺寸特征图,其中f1是提供详细的边界信息,然后f2~f4是提供高层次的抽象特征。

边界预测模型

一个很强的在边界信息的优先级,是高度有益于分割任务的。然而低层次特征约束了丰富的边界细节,他们也引入了一个大量的非目标边界信息。在探求边界特征时,考虑高层次语义信息变得有必要。结合低维度细节信息和高层次语义信息促进相关边界特征的提取。我们已经提出了一个边界预测模型,那高效地生成了初始化边界引导图,它们在促进和提高子语句解码处理中扮演着重要的角色。在这些模型中,我们融合了低层次(f1)特征和高层次(f4)特征,来精确捕捉和建模和边界信息相关的重要实体。具体来说,我们首先用两个1x1的卷积来改变低层次的通道,和高层次的特征到32,这可以表示为:

在这个等式中Conv1x1的代表一个1x1的卷积操作,U代表上采样操作然后,我们通过串联操作整合获得到的X1’,X4’。然后我们应用一个3X3卷积核一个1x1卷积,其中能表示为。

最后,我们用一个变参Sigmoid函数来权衡和自适应这两个边界特征,来产生初始化边界引导信息图,可以表示为:。在这个等式中σ代表Sigmoid变参函数,fe代表初始化边界引导图。

多尺度边界引导模型

多样的尺度也是一个重要的图像分割影响因素。因为每一个卷积层被限定处理特定的尺寸。需要捕获多尺度信息从不同的层中到呈现不同目标。因此,我们提出了一个边界引导的特征融合模型(BFAM)。BFAM是用于融合EPM产生的边界信息到分割网络中。这个模型加强了层次特征,提高 了边界细节的保护,准确的定位了目标.具体来说,在输入特征(f1,f2,f3,f4)和由EPM产生的边界信息fe之间,先进行逐点乘法,在进行跳连接,然后一个3X3卷积来获取初始化融合特征fie,可以表示为:

在这个等式中,conv3x3代表一个3x3卷积操作,D代表一个下采样操作,‘+’是主元素相加,‘X’是逐元素相乘。我们用两步,1x1卷积到输入特征层fi,减少它通道维度训练过程。我们提出利用双流网络结构,其中两个特征卷积核被使用了。使用了两个不同的卷积核。此体系结构可以在不同尺度的特征之间共享信息,促进增强的信息集成和提取能力。具体结构如图4

  • 20
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值