LeViT-UNet: Make Faster Encoders with Transformer for Medical Image Segmentation

SeeYa-J

于 2024-08-07 21:18:03 发布

阅读量1.4k

点赞数 45

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/qq_52241167/article/details/141000052

版权

论文链接：

LeViT-UNet: Make Faster Encoders with Transformer for Medical Image Segmentation | SpringerLink

git

GitHub - apple1986/LeViT-UNet: For medical image segmentation

介绍

Transformer 最初被用于 (NLP) 任务中的序列到序列建模，例如机器翻译、情感分析和信息提取。最近，基于 Transformed 的架构（称为 ViT [9]）已应用于视觉相关任务，并通过大规模预训练在图像分类任务中取得了最先进（SOTA）的结果数据集[10][11]。它们也被研究用于语义分割，例如 Swin Transformer [12]、Swin-UNet [13]、TransUNet [14]。然而，这些基于 Transformer 的方法的主要局限性在于对计算能力的高要求，这阻碍了它们在实时应用中的使用，例如放射治疗。

LeViT [11]最初被提出用于使用混合 Transformer 和卷积块进行快速推理图像分类，从而优化了准确性和效率之间的权衡。然而，该架构尚未充分利用 Transformer 和卷积块的各种尺度的特征图，这对于图像分割可能至关重要。受 LeViT 的启发，我们在本文中提出了用于 2D 医学图像分割的 LeViT-UNet，旨在使用 Transformer 制作更快的编码器，并通过将 Transformer 的远程空间关系集成到从卷积层提取的特征中来提高分割性能。据我们所知，LeViT-UNet 是最早关注基于 Transformer 的医学图像分割架构的效率和准确性的少数网络之一。

所提出的 LeViT-UNet 主要由编码器、解码器和多个跳跃连接组成。

编码器：基于 LeViT Transformer 块构建的

解码器：基于卷积块构建的。

受 U 形架构设计的启发，我们从 LeViT 的 Transformer 块中提取多尺度特征图，并通过跳跃连接将它们传递到解码块中。我们期望这样的设计能够整合 Transformer 用于全局特征提取和 CNN 用于局部特征表示的优点。我们的实验表明，LeViT-UNet 可以利用 Transformer 和 CNN 的优点，提高医学图像分割任务的准确性和效率。

论文主要创新

我们工作的主要贡献可概括如下：

        1.我们提出了一种新颖的轻量级、快速且高精度的混合卷积和 Transformer 分割架构，名为 LeViT-UNet，它使用多级 Transformer 块来提取全局上下文特征，并使用卷积块来学习局部高分辨率空间信息；
        2.我们探索了跳跃连接和 Transformer 块在编码器和解码器 LeViT-UNet 架构中的效果，发现通过集成跳跃连接的更多低级特征并为分割任务提供来自 Transformer 的全局上下文信息是有帮助的；
        3.在两个公共数据集上进行了综合实验，结果表明所提出的 LeViT-UNet 在准确性和效率方面与其他 SOTA 方法相比具有竞争力。我们的工作将为医学图像分析领域中使用 Transformer 进行快速分割提供基准比较。

方法

与传统的 U-Net 采用卷积运算来编码和解码特征不同，我们在编码器部分应用 LeViT 模块来构建全局上下文信息并将其集成到所提出的 LeViT-UNet 架构中。在接下来的章节中，LeViT-UNet 的整体架构将在第 2 节中介绍。 3.1.然后，LeViT-UNet 中的编码器和解码器的组件将在第 4 节中详细介绍。分别为3.2和3.3。

3.1 LeViT-UNet 架构

LeViT-UNet 的架构（图 1）由编码器、解码器和多个跳跃连接组成。在这里，我们在编码器部分应用 LeViT 模块从特征图中提取远程结构信息。 LeViT（图 1）是一种具有卷积块和视觉转换器的混合神经网络。

LeViT-UNet的架构，由编码器（紫色框）、解码器（蓝色和绿色框）和几个跳跃连接组成。这里，编码器是基于LeViT模块构建的。

3.2 LeViT 作为编码器

继LeViT[11]之后，我们应用LeViT架构作为编码器，它由两个主要组件组成：卷积块和transformer块。具体来说，卷积块中有 4 层步长为 2 的卷积，可以降低分辨率。这些特征图将被输入到transformer块中，在其中建立每个像素之间的远程关系。 LeViT 编码器分为三种类型，根据馈入第一个 Transformer 块的通道数量，分别命名为 LeViT-128、LeViT-192 和 LeViT-384。 LeViT-192 架构的框图如图 2 所示。请注意，我们在编码器的最后一级连接了卷积层和transformer块的特征，这可以充分利用各种尺度的局部和全局特征。