恒源云(GpuShare)_医学图像分割:MT-UNet

本文介绍了MT-UNet,一种结合了Local-Global Gaussian-Weighted Self-Attention (LGG-SA) 和 External Attention (EA) 的新型Transformer模块,用于医学图像分割。LGG-SA关注局部和全局信息,减少计算成本,而EA则利用样本间的关系提升模型性能。实验表明,这些改进提高了视觉任务的效率和效果。
摘要由CSDN通过智能技术生成


我们社区有新的技术分享小伙伴啦🎉🎉🎉
热烈欢迎👏
作为一名合格的搬运工,我必须做点事情表达我的喜悦之情:搬运~搬运~立即搬运~

文章来源 | 恒源云社区

原文地址 | 新的混合Transformer模块(MTM)

原文作者 | 咚咚


摘要

存在问题 虽然U-Net在医学图像分割方面取得了巨大的成功,但它缺乏对长期依赖关系进行显式建模的能力。视觉Transformer由于其固有的通过自注意(SA)捕捉长程相关性的能力,近年来成为一种可替代的分割结构。
存在问题 然而,Transformer通常依赖于大规模的预训练,具有较高的计算复杂度。此外,SA只能在单个样本中建模self-affinities,忽略了整个数据集的潜在相关性
论文方法 提出了一种新的混合Transformer模块(MTM),用于同时进行inter-affinities学习和intra-affinities学习。MTM首先通过局部-全局高斯加权自注意(LGG-SA)有效地计算窗口内部affinities。然后,通过外部注意挖掘数据样本之间的联系。利用MTM算法,构造了一种用于医学图像分割的MT-UNet模型

Method


如图1所示。该网络基于编码器-解码器结构

  1. 为了降低计算成本,MTMs只对空间大小较小的深层使用,
  2. 浅层仍然使用经典的卷积运算。这是因为浅层主要关注局部信息,包含更多高分辨率的细节。

MTM

如图2所示。MTM主要由LGG-SA和EA组成。

LGG-SA用于对不同粒度的短期和长期依赖进行建模,而EA用于挖掘样本间的相关性。

该模块是为了替代原来的Transformer编码器,以提高其在视觉任务上的性能和降低时间复杂度

LGG-SA(Local-Global Gaussian-Weighted Self-Attention)

传统的SA模块对所有tokens赋予相同的关注度,而LGG -SA则不同,利用local-global自注意力和高斯mask使其可以更专注于邻近区域。实验证明,该方法可以提高模型的性能,节省计算资源。该模块的详细设计如图3所示

local-global自注意力

在计算机视觉中,邻近区域之间的相关性往往比遥远区域之间的相关性更重要,在计算注意图时,不需要为更远的区域花费相同的代价。

因此,提出local-global自注意力

  1. 上图stage1中的每个局部窗口中含有四个token,local SA计算每个窗口内的内在affinities。
  2. 每个窗口中的token被aggregate聚合为一个全局token ,表示窗口的主要信息。对于聚合函数,轻量级动态卷积(Lightweight Dynamic convolution, LDConv)的性能最好。
  3. 在得到下采样的整个特征图后,可以以更少的开销执行global SA(上图stage2)。


其中 X ∈ R H × W × C X \in R^{H \times W \times C} XRH×W×

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值