基于深度学习的医学图像分割<十三>Mixed Transformer U-Net For Medical Image Segmentation

Mixed Transformer U-Net For Medical Image Segmentation

参考
原文链接

Transformer中的自注意力机制的缺陷:需要大规模预训练;具有二次计算复杂度,降低对医学图像等高维数据的处理速度;忽略了样本间的相关性。
本文重新设计自注意力,然后将其与外部注意力集成。由于在大多数视觉任务中,邻近区域之间的视觉依赖关系通常比那些遥远区域之间的要强,因此在细粒度局部上下文执行局部SA,在粗粒度全局上下文执行全局SA。在计算全局注意力映射时,使用轴向注意力减少计算量,并进一步引入可学习的高斯矩阵来增强附近tokens的权重。
网络整体架构:
在这里插入图片描述
为了降低计算成本,MTMs只对空间大小较小的深层使用,而上层仍然使用经典的卷积运算。通过使用卷积引入一些先验信息到模型中,对于尺寸较小的医学图像数据集是很有帮助的。

Mixed Transformer Module(MTM):

MTM包含Local-Global Gaussian-Weighted Self-Attention(LGG-SA)和External Attention(EA).LGG-SA对不同粒度的长短程依赖关系进行建模,EA用于发掘样本之间的相关性。

在这里插入图片描述

Local-Global Gaussian-Weighted Self-Attention

LGG-SA采用局部全局策略和高斯掩码:
在这里插入图片描述
Local-Global Self-Attention
在计算机视觉中,邻近区域之间的相关性往往比远处区域之间的相关性更重要,在计算注意图时,不需要为更远的区域花费相同的代价。因此提出Local-Global Self-Attention。局部注意力计算每个窗口内的自亲和力,然后每个窗口中的token被聚合为一个全局token,来表示窗口的主要信息。
在这里插入图片描述
Gaussian-Weighted Axial Attention
与LSA使用原始SA不同,GSA使用Gaussian-Weighted Axial Attention,GWAA通过一个可学习的高斯矩阵增强了每个查询对附近token的感知,同时由于轴向注意,时间复杂度较低
在这里插入图片描述

External Attention

所有样本共享两个记忆单元 M K M_{K} MK, M V M_{V} MV,描述了整个数据集中最重要的信息。
在这里插入图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值