Medical Transformer: Gated Axial-Attention for Medical Image Segmentation
现有的技术背景及其局限:
- 深度卷积体系结构缺乏对图像中的远程依赖关系的把握。
- 用于医学成像的数据样本数量相对较少,使得有效训练用于医学得transformer变得困难。
探索解决方案:
- 基于 Transformer 的体系结构利用自我注意机制,编码长期依赖关系,并具有极富表现力的表示法.
- 我们提出了一种门控轴向注意模型,通过在自我注意模块中引入额外的控制机制来扩展现有的体系结构.
- 此外,为了对模型进行有效的医学图像训练,我们提出了一种局部-全局训练策略(LOGO),进一步提高了模型的性能。
Medical Transformer
MedT 有两个分支机构:一个全局分支和一个本地分支。
这两分支的输入是从初始卷积块提取的特征图。
在 MedT 的全局分支中,我们有 2 个编码器块和 2 个解码器块。
在本地分支中,我们有 5 个编码器块和 5 个解码器块。
gated axial transformer layer
Gated Axial-Attention的推导
- Self-Attention
计算这种全局亲和度关系是非常昂贵的,并且随着特征图大小的增加,将 Self-Attention 用于视觉模型体系结构通常变得不可行。
2.Axial-Attention
为了克服亲和度计算的复杂性,将自我注意分解为两个自我注意模块,具有更好的运算效率,上图示例沿宽度注意并加上位置偏差项.但是在小规模数据集上,位置偏差可能很难学习准确,导致性能降低.
3.Gated Axial-Attention
GQ、GK、GV1、GV2 是可学习的参数,它们共同创建门控机制,以分配不同权重的方式,控制位置偏差对编码的影响.如果准确地学习了相对位置编码,则与未准确学习的编码相比,门控机制将为其分配较高的权重。
Local-Global Training 策略
在全局分支中,我们减少了gated axial transformer layers的数量,因为我们发现所提出的transformer模型的前几个块足以模拟长距离依赖关系。
在局部分支中,我们创建大小为I/4×I/4的16个图像块,其中I是原始图像的尺寸。在局部分支中,每个patch通过网络进行前向反馈,并根据其位置对输出特征图进行重新采样,以获得输出特征图。
然后将两个分支的输出特征图相加并通过1×1卷积层以产生输出分割掩码.全局分支关注的是高层信息,而局部分支关注的是更精细的细节。
损失函数L,使用交叉熵