多尺度自引导注意医学图像分割

本文提出了一种多尺度自引导注意力网络,通过捕捉上下文依赖关系,解决医学图像分割中冗余信息和长距离依赖性的问题,提高分割性能和准确性。实验结果显示,该方法在腹部器官、心血管结构和脑肿瘤分割任务中优于先进模型,证明了其在医学图像分析中的有效性。
摘要由CSDN通过智能技术生成

多尺度自引导注意医学图像分割


Multi-scale self-guided attention for medical image segmentation

摘要

尽管卷积神经网络(CNN)正在推动医学图像分割的进步,但标准模型仍然存在一些缺点。首先,使用多尺度方法,即,编码器-解码器架构导致信息的冗余使用,其中在多个尺度上多次提取类似的低级特征。第二,长距离的特征依赖关系没有被有效地建模,从而导致与每个语义类相关联的非最佳的判别特征表示。在本文中,我们试图克服这些限制与建议的架构,通过捕获更丰富的上下文依赖关系的基础上使用引导自我注意机制。该方法能够将局部特征与其相应的全局依赖性相结合,并以自适应的方式突出相互依赖的通道映射。此外,不同模块之间的额外损失引导注意力机制忽略不相关的信息,并通过强调相关特征关联来关注图像的更具鉴别力的区域。我们在三个不同的数据集:腹部器官,心血管结构和脑肿瘤的语义分割的上下文中评估所提出的模型。一系列的消融实验支持这些注意模块的重要性,在建议的架构。此外,与其他最先进的分割网络相比,我们的模型具有更好的分割性能,提高了预测的准确性,同时降低了标准差。这证明了我们的方法的效率,以产生精确和可靠的自动分割的医学图像。我们的代码可在以下网址公开获取:https://github.com/sinAshish/MultiScale-Attention

引言

医学图像的语义分割是许多疾病诊断、治疗和随访的关键步骤。尽管在过去已经广泛研究了该任务的自动化,但在临床实践中仍然通常使用手动注释,这是一个耗时且易于观察者间和观察者内变化的过程。因此,对精确且可靠的自动分割方法有很高的需求,这些方法允许提高临床场景中的工作流程效率,减轻放射科医生和其他医学专家的工作量。
最近,卷积神经网络(CNN)在广泛的视觉识别任务中取得了最先进的性能,由于其强大的非线性特征提取能力而变得非常流行。这些深度模型在医学图像分割[1]中占据主导地位,并且在广泛的应用中取得了出色的性能,例如,包括大脑[2]或心脏[3]成像,成为这些问题的事实上的解决方案。在这种情况下,全卷积神经网络[4]或编码器-解码器架构[5],[6]通常是标准选择。这些架构通常由收缩路径和扩展路径组成,收缩路径将输入图像折叠成一组高级特征,扩展路径中的高级特征用于在单个[4]或多个上采样步骤[5],[6]中重建逐像素分割掩模。然而,尽管这些多尺度方法具有很强的表示能力,但它们导致信息流的冗余使用,例如,在网络内的不同级别上多次提取类似的低级特征。此外,学习到的特征表示用于逐像素识别的辨别能力可能不足以用于一些具有挑战性的任务,例如医学图像分割。
最近提高特征表示的区分能力的工作包括使用多尺度上下文融合[7],[8],[9],[10]。Zhao等人[8]提出了一种金字塔网络,通过聚合由多个扩张卷积块生成的特征图来利用不同尺度的全局信息。上下文多尺度信息的聚合也可以通过池化操作来实现[11]。尽管这些策略可以帮助捕获不同尺度的对象,但是所有图像区域的上下文依赖性是同质的和非自适应的,忽略了不同类别的局部表示和上下文依赖性之间的差异。此外,这些多上下文表示是手动设计的,缺乏对多上下文表示进行建模的灵活性。这使得整个图像中的长程对象关系不能在这些方法中被充分利用,这在许多医学成像分割问题中是至关重要的。

但是所有图像区域的上下文依赖性是同质的和非自适应的,
忽略了不同类别的局部表示和上下文依赖性之间的差异。

或者,在许多计算机视觉任务的深度CNN中,已经广泛研究了注意力机制,以便有效地整合局部和全局特征,包括人体姿势估计[12],情感识别[13],文本检测[14],对象检测[15]和分类[16]。与标准的多尺度特征融合方法(将整个图像压缩为静态表示)不同,注意力允许网络专注于最相关的特征,而无需额外的监督,避免使用多个相似的特征图并突出显示对给定任务有用的显著特征。语义分割网络也受益于注意力模块,这导致了像素识别任务的增强模型[17],[18],[19],[20],[21],[22]。例如,Chen等人。[17]提出了一种注意力机制,用于在自然场景分割的背景下对在不同尺度上提取的多尺度特征进行加权。该方法改进了传统的平均和最大池技术的分割性能,合并多尺度特征预测。

[17]提出了一种注意力机制,用于在自然场景分割的背景下对在不同尺度上提取的多尺度特征进行加权。
该方法改进了传统的平均和最大池技术的分割性能,合并多尺度特征预测。
L.-C. Chen et al., “Attention to scale: Scale-aware semantic image
segmentation,in Proceedings of the IEEE conference on computer
vision and pattern recognition, 2016, pp. 36403649.

尽管人们越来越关注在自然场景的图像分割网络中集成注意力机制,但它们在医学图像中的应用仍然很少[23],[24],[25],[26],[27],仅限于简单的注意力模型。因此,在这项工作中,我们探索了更复杂的注意力机制,可以提高标准深度网络在医学图像分割任务中的性能。具体来说,我们提出了一个多尺度引导注意力网络的医学图像分割。首先,多尺度方法以包含不同语义的不同分辨率生成堆栈。较低级别的堆栈关注局部外观,而较高级别的堆栈将对全局表示进行编码。这种多尺度策略鼓励以不同分辨率生成的注意力地图编码不同的语义信息。然后,在每个尺度上,一堆注意力模块将逐渐去除噪声区域,并强调那些与目标的语义描述更相关的区域。每个注意模块包含两个独立的自我注意机制,分别侧重于建模位置和通道特征依赖关系。这种双重允许对更广泛和更丰富的上下文表示进行建模,并改善通道映射之间的依赖性,从而增强特征表示。我们验证了我们的方法在三个不同的分割任务:腹部器官,心血管结构和脑肿瘤。结果表明,所提出的架构,提高了分割性能,成功地建模丰富的上下文依赖关系的本地功能。

L.-C. Chen et al., “Attention to scale: Scale-aware semantic image
segmentation,in Proceedings of the IEEE conference on computer
vision and pattern recognition, 2016, pp. 36403649.

相关工作

A. Medical image segmentation—A.医学图像分割
尽管医学图像的分割在过去已经得到了广泛的研究[28],[29]不可否认的是,CNN正在推动这一领域的进步,在许多应用中表现出色。大多数可用的医学图像分割架构都受到众所周知的全卷积神经网络(FCN)[4]或UNet [5]的启发。在FCN中,标准分类CNNS的全连接层被卷积层取代,以在一个向前的步骤中实现密集像素预测。为了恢复输入图像的原始分辨率,在单个步骤中对预测进行上采样。此外,为了提高预测能力,通过采用中间特征图将跳过连接包括在网络中。另一方面,UNet包含使用卷积层与池化和上采样层的组合创建的收缩和扩展路径。跳过连接用于连接来自收缩路径层和扩展路径层的特征。这些网络的许多扩展已经被提出来解决广泛应用中的像素分割问题[30],[31],[32],[33],[34],[35],[36],[37],[38],[39]。
B. Deep attention—B。深度注意力
注意机制旨在强调局部特征中捕获的重要局部区域,过滤全局特征传递的无关信息,改善长距离依赖关系的建模。因此,这些模块已经成为需要捕获全局依赖关系的模型的重要组成部分。这些注意力模块的集成在许多视觉问题中已经被证明是非常成功的,例如图像字幕[40],图像问答[41]或分类[42]。自注意力[43],[44],[45]最近引起了研究人员的注意,因为它表现出良好的建模能力,同时保持计算和统计效率。在这些模块中,通过关注所有位置并在嵌入空间中取其加权平均值来计算每个位置处的响应。对于图像视觉问题,[18],[19]集成了自我注意力来建模局部特征与其相应的全局依赖关系的关系。例如,[18]中提出的逐点空间注意力网络(PSANet)通过自适应注意力地图将特征地图中的每个位置与所有其他位置连接起来,从而允许灵活和动态地聚合长距离上下文信息。
最近的工作表明,在单个步骤中生成的注意力特征可能仍然包含从与给定类别无关的区域引入的噪声,导致次优结果[41],[46]。为了克服这个问题,一些作品已经研究了在视觉问答[41]或零镜头学习[46]的背景下使用渐进式多注意层。该策略逐渐过滤不需要的噪声,并强调与类语义表示高度相关的区域。据我们所知,堆栈注意模块的应用仍然是未开发的语义分割。
C. Medical image segmentation with deep attention—C.深度关注医学图像分割
尽管注意力机制在许多视觉问题上变得越来越流行,但关于注意力医学图像分割的文献仍然很少,只有简单的注意力模块[23],[24],[25],[26],[27]。Wang等人[23]采用多分辨率的注意力模块,将局部深度注意力特征(联合收割机)与超声图像上的前列腺分割的全局背景相结合。为了对长程依赖关系进行建模,将局部和全局特征结合在一个简单的注意力模块中,该模块包含三个卷积层,后面是一个softmax函数来创建注意力图。类似的注意力模块由两个卷积层和一个softmax组成,被集成到UNet中集成的分层聚合框架中,用于左心房分割[24]。最近,添加剂注意门模块被集成在UNet的解码路径的跳过连接中,目的是更好地模型来自编码器的补充信息[25]。

方法

概述
医学成像上的目标结构通常在大小、形状和纹理上呈现类内和类间多样性,特别是如果图像以2D处理。用于分割的传统CNN具有局部感受野,这导致生成局部特征表示。由于长距离上下文信息未被正确编码,局部特征表示可能导致与具有相同标签的像素对应的特征之间的潜在差异[19]。这可能会引入类内不一致性,最终影响识别性能[47]。为了解决这个问题,我们研究了注意力机制,以建立特征之间的关联。首先,采用多尺度策略捕获全局背景。然后,在多个尺度上学习的特征被馈送到引导注意模块中,该模块由空间和通道自注意模块的堆栈组成。虽然空间和通道自注意模块将有助于自适应地将局部特征与其全局依赖性相结合,但注意模块的堆栈将有助于逐渐过滤掉噪声,强调相关信息。拟议框架概述见图1。

医学成像上的目标结构通常在大小、形状和纹理上呈现类内和类间多样性,特别是如果图像以2D处理。用于分割的
传统CNN具有局部感受野,这导致生成局部特征表示。由于长距离上下文信息未被正确编码,局部特征表示可能导
致与具有相同标签的像素对应的特征之间的潜在差异[19]。这可能会引入类内不一致性,最终影响识别性能[47]
19   J. Fu et al., “Dual attention network for scene segmentation,in The
IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2019.
在图像分类背景下堆叠注意力模块
47 C. Peng et al., “Large kernel matters–improve semantic segmentation by
global convolutional network,in Proceedings of the IEEE conference
on computer vision and pattern recognition, 2017, pp. 43534361.

图注:多尺度引导注意力网络(Multi-scale Guided Attention Network)。我们求助于ResNet-101来提取密集的局部特征。采用从[Res-2,Res-3,Res-4,Res-5]的输出获得的具有不同大小的四个特征图。引导注意力模块将在多个尺度上生成注意力特征,去除噪声区域,并帮助网络强调与语义类别更相关的区域。

图注:多尺度引导注意力网络(Multi-scale Guided Attention Network)。我们求助于ResNet-101
来提取密集的局部特征。采用从[Res-2,Res-3,Res-4,Res-5]的输出获得的具有不同大小的四个特征图
引导注意力模块将在多个尺度上生成注意力特征,去除噪声区域,并帮助网络强调与语义类别更相关的区域。

B. Multi-scale attention maps—B。多尺度注意力地图
在深度学习时代之前,多尺度特征就已经被认为在计算机视觉问题中非常有用[48]。在深度分割网络的背景下,多尺度特征的整合表现出惊人的性能[17],[49],[50]。受这些工作的启发,我们在多个尺度上使用学习的特征,这有助于对全局和局部上下文进行编码。具体来说,我们遵循最近在[23]中提出的多尺度策略。在此设置中,多个尺度的特征表示为Fs,其中s表示架构中的级别(图1)。由于特征对于每个级别s具有不同的分辨率,因此通过采用双线性插值将它们上采样到共同的分辨率,从而导致放大的特征图F s。然后,来自所有尺度的F被连接形成一个张量,该张量被卷积以创建一个公共的多尺度特征图,FMS = conv([F 0,F 1,F 2,F 3])。因此,FMS编码来自浅层的低级细节信息以及在更深层中学习的高级语义。然后,该新的多尺度特征图与不同尺度s的每个特征图组合,并被馈送到引导注意力模块中以生成注意力特征As:
在这里插入图片描述
其中AttMod代表每个引导注意模块(第III-D节)。由于多尺度特征映射FMS在每个单独的层上被组合,因此来自FMS的互补低级信息和高级语义被联合编码,从而产生更强大的表示。在下面的部分中,我们详细说明如何获得关注特征As。
在这里插入图片描述
C. Spatial and Channel self-attention modules—C.空间和通道自我注意模块
如前所述,传统分割深度模型中的感受野被减少到局部附近。这限制了对更广泛和更丰富的上下文表示进行建模的能力。另一方面,通道映射可以被认为是类特定的响应,其中不同的语义响应彼此相关联。因此,增强特定语义的特征表示的另一种策略是改善通道映射之间的依赖性[51]。为了解决标准CNN的这些局限性,我们采用了最近在[19]中提出的位置和通道注意模块,如图2所示。
Position attention module (PAM):—位置注意模块(PAM)
设F ∈ RC×W×H为注意模块的输入特征映射,其中C、W、H分别表示通道、宽度和高度维度。在上面的分支中,F通过卷积块,得到特征图Fp 0 ∈ RC ×W×H,其中C等于C/81。然后,Fp 0被重塑为形状为(W × H)× C的特征图。在第二个分支中,输入特征图F遵循相同的操作,然后被转置,导致Fp 1 ∈ RC ×(W×H)。将两个映射相乘,并将softmax应用于结果矩阵以生成空间注意力映射Sp ∈ R(W×H)×(W×H):
在这里插入图片描述
其中Spi,j评估第i个位置对第j个位置的影响。输入F被馈送到第三分支中的不同卷积块中,导致Fp 2 ∈ RC×(W×H),其具有与F相同的形状。与其他分支一样,Fp2被重新整形为Fp2 ∈ RC×(W×H).然后,将其乘以空间注意力图S的置换版本,其输出被重塑为RC×(W×H)。与位置关注模块对应的关注特征图,即,因此,FPAM可以用公式表示如下
在这里插入图片描述
与[19]中一样,λp的值被初始化为0,并且逐渐学会给予空间注意力地图更多的重要性。因此,位置注意力模块在空间注意力图的引导下,选择性地将全局上下文聚合到所学习的特征。[这种东西到底是怎么实现的?就是λ,然后让它自己去学习]
Channel attention module (CAM):—通道注意模块(CAM):
通道注意模块的流水线在图2的底部描述。输入F ∈ RC×W×H在CAM的前两个分支中被整形,并在第二个分支中被置换,分别导致Fc 0 ∈ R(W×H)×C和Fc 1 ∈ RC×(W×H)。然后,我们在Fc 0和Fc 1之间执行矩阵乘法,并且获得信道注意力图Sc ∈ RC×C为:
在这里插入图片描述
其中第i个信道对第j个信道的影响由SCi,j给出。然后将其乘以输入F的转置版本,即,Fc2,其结果被整形为RC×(W×H).然后,最终的频道注意力图被获得为:
在这里插入图片描述
其中λc控制频道注意力图相对于输入特征图F的重要性。与λp类似,λc最初设置为0并逐渐学习。该公式将所有通道的特征的加权版本聚合到原始特征中,突出类相关的特征图并增加类之间的特征区分度。在两个注意力模块的结尾,新生成的特征在执行逐元素求和操作以生成位置通道注意力特征之前被馈送到卷积层中。
在这里插入图片描述
图注:语义引导注意模块的说明,有2个细化步骤。对于每个刻度,该模块提供了一组关注的特征,即,如.
D. Guiding attention==== D.引导注意
受最近在图像分类背景下堆叠注意力模块的工作的启发[46],我们建议通过顺序细化模块添加注意力特征的渐进细化。直觉是,这种顺序细化将逐步加权不同局部区域的重要性,同时掩盖不相关的噪声。特别地,给定在引导注意模块的输入处的尺度为s的特征图F-通过连接FMS和F * s生成-,其经由多步细化生成注意特征(图3)。在第一步中,位置和通道注意模块使用F来生成自注意特征。并行地,我们集成了一个编码器-解码器网络,该网络将输入特征F压缩成潜在空间中的紧凑表示[46]。目标是通过迫使编码器-解码器的潜在表示接近,可以将类别信息嵌入到后续的引导注意模块中,其公式化为:
在这里插入图片描述
在这里插入图片描述
其中Ei(·)是第i个编码器-解码器网络的编码表示,Fi A表示在第i个双重注意模块之后生成的注意特征,M是迭代次数。注意,Fi-1 A是语义引导注意模块F的输入特征。具体地,通过矩阵乘法将在第一编码器-解码器(n = 0)中重构的特征图与由第一关注模块生成的自关注特征组合以生成FSA。此外,为了确保重构的特征对应于位置通道注意力模块的输入处的特征,编码器的输出被迫接近于其输入:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值