Medical Image Segmentation via Cascaded Attention Decoding
摘要
transformer在医学图像分割中显示出巨大的前景,因为它们能够通过自注意力捕获远程依赖关系。然而,它们缺乏学习像素之间的局部(上下文)关系的能力。以前的工作试图通过在transformer的编码器或解码器模块中嵌入卷积层来克服这个问题,因此有时会出现不一致的特征。
本文方法
- 提出了一种新的基于注意的解码器,即CASCADE注意解码器(CASCADE)
- 利用了分层视觉转换器的多尺度特征
- 级联包括:一个注意门,它融合了带有跳跃连接的特征;一个卷积注意模块,它通过抑制背景信息来增强远程和局部上下文。
- 使用多阶段特征和损失聚合框架,因为它们收敛更快,性能更好。
本文方法
为了保证医学图像分割具有足够的泛化和多尺度特征处理能力,我们使用了金字塔转换器,以及混合CNNtransformer(而不仅仅是CNN)作为编码器。具体来说,我们采用了PVTv2和TransUNet的编码器设计。
现有的基于transformer的模型在像素之间的(局部)上下文信息处理能力有限。因此,基于transformer的模型难以定位更具辨识性的局部特征。为了解决这个问题,我们提出了一种新的基于注意力的级联多阶段特征聚合解码器CASCADE,用于金字塔特征。
CASCADE由UpConv块(用于对特征进行上采样)、AG块(用于级联特征融合)和CAM块(用于鲁棒增强特征映射)组成。我们有四个CAM块用于从编码器主干的金字塔特征的四个阶段,三个AGs用于三个跳过连接。为了聚合多尺度特征,我们首先使用AG将先前解码器块的上采样特征与跳过连接的特征结合起来。然后,我们将融合后的特征与前一层的上采样特征连接起来。之后,我们使用我们的CAM模块处理连接的特征,进行像素分组,并使用通道和空间注意来抑制背景信息。最后,我们将每个CAM层的输出发送到一个预测头,并汇总四个不同的预测以产生最终的分割图
损失函数
我们对分层编码器的四个阶段使用了四个预测头。我们使用加性聚合计算最终的预测图
实验结果