论文链接:
LeViT-UNet: Make Faster Encoders with Transformer for Medical Image Segmentation | SpringerLink
git
GitHub - apple1986/LeViT-UNet: For medical image segmentation
介绍
Transformer 最初被用于 (NLP) 任务中的序列到序列建模,例如机器翻译、情感分析和信息提取。最近,基于 Transformed 的架构(称为 ViT [9])已应用于视觉相关任务,并通过大规模预训练在图像分类任务中取得了最先进(SOTA)的结果数据集[10][11]。它们也被研究用于语义分割,例如 Swin Transformer [12]、Swin-UNet [13]、TransUNet [14]。然而,这些基于 Transformer 的方法的主要局限性在于对计算能力的高要求,这阻碍了它们在实时应用中的使用,例如放射治疗。
LeViT [11]最初被提出用于使用混合 Transformer 和卷积块进行快速推理图像分类,从而优化了准确性和效率之间的权衡。然而,该架构尚未充分利用 Transformer 和卷积块的各种尺度的特征图,这对于图像分割可能至关重要。受 LeViT 的启发,我们在本文中提出了用于 2D 医学图像分割的 LeViT-UNet,旨在使用 Transformer 制作更快的编码器,并通过将 Transformer 的远程空间关系集成到从卷积层提取的特征中来提高分割性能。据我们所知,LeViT-UNet 是最早关注基于 Transformer 的医学图像分割架构的效率和准确性的少数网络之一。
所提出的 LeViT-UNet 主要由编码器、解码器和多个跳跃连接组成。
编码器:基于 LeViT Transformer 块构建的
解码器:基于卷积块构建的。
受 U 形架构设计的启发,我们从 LeViT 的 Transformer 块中提取多尺度特征图,并通过跳跃连接将它们传递到解码块中。我们期望这样的设计能够整合 Transformer 用于全局特征提取和 CNN 用于局部特征表示的优点。我们的实验表明,LeViT-UNet 可以利用 Transformer 和 CNN 的优点,提高医学图像分割任务的准确性和效率。
论文主要创新
我们工作的主要贡献可概括如下:
1.我们提出了一种新颖的轻量级、快速且高精度的混合卷积和 Transformer 分割架构,名为 LeViT-UNet,它使用多级 Transformer 块来提取全局上下文特征,并使用卷积块来学习局部高分辨率空间信息;
2.我们探索了跳跃连接和 Transformer 块在编码器和解码器 LeViT-UNet 架构中的效果,发现通过集成跳跃连接的更多低级特征并为分割任务提供来自 Transformer 的全局上下文信息是有帮助的;
3.在两个公共数据集上进行了综合实验,结果表明所提出的 LeViT-UNet 在准确性和效率方面与其他 SOTA 方法相比具有竞争力。我们的工作将为医学图像分析领域中使用 Transformer 进行快速分割提供基准比较。
方法
与传统的 U-Net 采用卷积运算来编码和解码特征不同,我们在编码器部分应用 LeViT 模块来构建全局上下文信息并将其集成到所提出的 LeViT-UNet 架构中。在接下来的章节中,LeViT-UNet 的整体架构将在第 2 节中介绍。 3.1.然后,LeViT-UNet 中的编码器和解码器的组件将在第 4 节中详细介绍。 分别为3.2和3.3。
3.1 LeViT-UNet 架构
LeViT-UNet 的架构(图 1)由编码器、解码器和多个跳跃连接组成。在这里,我们在编码器部分应用 LeViT 模块从特征图中提取远程结构信息。 LeViT(图 1)是一种具有卷积块和视觉转换器的混合神经网络。
LeViT-UNet的架构,由编码器(紫色框)、解码器(蓝色和绿色框)和几个跳跃连接组成。这里,编码器是基于LeViT模块构建的。
3.2 LeViT 作为编码器
继LeViT[11]之后,我们应用LeViT架构作为编码器,它由两个主要组件组成:卷积块和transformer块。具体来说,卷积块中有 4 层步长为 2 的卷积,可以降低分辨率。这些特征图将被输入到transformer块中,在其中建立每个像素之间的远程关系。 LeViT 编码器分为三种类型,根据馈入第一个 Transformer 块的通道数量,分别命名为 LeViT-128、LeViT-192 和 LeViT-384。 LeViT-192 架构的框图如图 2 所示。请注意,我们在编码器的最后一级连接了卷积层和transformer块的特征,这可以充分利用各种尺度的局部和全局特征。
LeViT-192架构框图,其中集成了卷积和Transformer
transformer block:
Q、K、V表示补丁的数量以及查询或键的维度。 B 代表注意力偏差,它代替位置嵌入,可以提供每个注意力块内的位置信息。
3.3 CNNs作解码器
与 U-Net 类似,我们通过跳跃连接连接来自解码器的特征。级联上采样策略用于使用 CNN 恢复前一层的分辨率。例如,有H/16 × W/16 ×D形状的特征图来自编码器,然后,我们使用级联的多个上采样块来达到H×W全分辨率,其中每个块=【2*3×3conv、BN、Relu、上采样】。
实验与结果
多器官分割精度