LeViT-UNet: Make Faster Encoders with Transformer for Medical Image Segmentation

论文链接:

LeViT-UNet: Make Faster Encoders with Transformer for Medical Image Segmentation | SpringerLink

git

GitHub - apple1986/LeViT-UNet: For medical image segmentation 

介绍

 Transformer 最初被用于 (NLP) 任务中的序列到序列建模,例如机器翻译、情感分析和信息提取。最近,基于 Transformed 的架构(称为 ViT [9])已应用于视觉相关任务,并通过大规模预训练在图像分类任务中取得了最先进(SOTA)的结果数据集[10][11]。它们也被研究用于语义分割,例如 Swin Transformer [12]Swin-UNet [13]TransUNet [14]。然而,这些基于 Transformer 的方法的主要局限性在于对计算能力的高要求,这阻碍了它们在实时应用中的使用,例如放射治疗。

LeViT [11]最初被提出用于使用混合 Transformer 和卷积块进行快速推理图像分类,从而优化了准确性和效率之间的权衡。然而,该架构尚未充分利用 Transformer 和卷积块的各种尺度的特征图,这对于图像分割可能至关重要。受 LeViT 的启发,我们在本文中提出了用于 2D 医学图像分割的 LeViT-UNet旨在使用 Transformer 制作更快的编码器并通过将 Transformer 的远程空间关系集成到从卷积层提取的特征中来提高分割性能。据我们所知,LeViT-UNet 是最早关注基于 Transformer 的医学图像分割架构的效率和准确性的少数网络之一。

所提出的 LeViT-UNet 主要由编码器、解码器和多个跳跃连接组成。

编码器:基于 LeViT Transformer 块构建的

解码器:基于卷积块构建的。

受 U 形架构设计的启发,我们从 LeViT 的 Transformer 块中提取多尺度特征图,并通过跳跃连接将它们传递到解码块中。我们期望这样的设计能够整合 Transformer 用于全局特征提取和 CNN 用于局部特征表示的优点。我们的实验表明,LeViT-UNet 可以利用 Transformer 和 CNN 的优点,提高医学图像分割任务的准确性和效率。

论文主要创新

我们工作的主要贡献可概括如下:

        1.我们提出了一种新颖的轻量级、快速且高精度的混合卷积和 Transformer 分割架构,名为 LeViT-UNet,它使用多级 Transformer 块来提取全局上下文特征,并使用卷积块来学习局部高分辨率空间信息;
        2.我们探索了跳跃连接和 Transformer 块在编码器和解码器 LeViT-UNet 架构中的效果,发现通过集成跳跃连接的更多低级特征并为分割任务提供来自 Transformer 的全局上下文信息是有帮助的;
        3.在两个公共数据集上进行了综合实验,结果表明所提出的 LeViT-UNet 在准确性和效率方面与其他 SOTA 方法相比具有竞争力。我们的工作将为医学图像分析领域中使用 Transformer 进行快速分割提供基准比较。

方法

与传统的 U-Net 采用卷积运算来编码和解码特征不同,我们在编码器部分应用 LeViT 模块来构建全局上下文信息并将其集成到所提出的 LeViT-UNet 架构中。在接下来的章节中,LeViT-UNet 的整体架构将在第 2 节中介绍。 3.1.然后,LeViT-UNet 中的编码器和解码器的组件将在第 4 节中详细介绍。 分别为3.2和3.3。

3.1 LeViT-UNet 架构

LeViT-UNet 的架构(图 1)由编码器、解码器和多个跳跃连接组成。在这里,我们在编码器部分应用 LeViT 模块从特征图中提取远程结构信息。 LeViT(图 1)是一种具有卷积块和视觉转换器的混合神经网络。 

LeViT-UNet的架构,由编码器(紫色框)、解码器(蓝色和绿色框)和几个跳跃连接组成。这里,编码器是基于LeViT模块构建的。

3.2 LeViT 作为编码器

继LeViT[11]之后,我们应用LeViT架构作为编码器,它由两个主要组件组成:卷积块和transformer块。具体来说,卷积块中有 4 层步长为 2 的卷积,可以降低分辨率。这些特征图将被输入到transformer块中,在其中建立每个像素之间的远程关系。 LeViT 编码器分为三种类型,根据馈入第一个 Transformer 块的通道数量,分别命名为 LeViT-128、LeViT-192 和 LeViT-384。 LeViT-192 架构的框图如图 2 所示。请注意,我们在编码器的最后一级连接了卷积层和transformer块的特征,这可以充分利用各种尺度的局部和全局特征。

LeViT-192架构框图,其中集成了卷积和Transformer

transformer block:

Q、K、V表示补丁的数量以及查询或键的维度。 B 代表注意力偏差,它代替位置嵌入,可以提供每个注意力块内的位置信息。

3.3 CNNs作解码器

与 U-Net 类似,我们通过跳跃连接连接来自解码器的特征。级联上采样策略用于使用 CNN 恢复前一层的分辨率。例如,有H/16 × W/16 ×D形状的特征图来自编码器,然后,我们使用级联的多个上采样块来达到H×W全分辨率,其中每个块=【2*3×3conv、BN、Relu、上采样】。

实验与结果

多器官分割精度

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值