组会论文翻译:DAE-Former:用于医学图像分割的双注意引导高效transformer

DAE-Former: Dual Attention-guided Efficient Transformer for Medical Image Segmentation

DAE-Former:用于医学图像分割的双注意引导高效transformer

TitleDAE-Former: Dual Attention-guided Efficient Transformer for Medical Image Segmentation

Author: Reza Azad et al. (亚琛工业大学)

Paper: https://arxiv.org/abs/2212.13504

Github: https://github.com/mindflow-institue/daeformer

摘要

  1. 背景介绍:Transformer能够对远程依赖关系进行建模而得到广泛关注。
  2. 现存问题:其核心部分的self-attention,通常会受到tokens数量的二次方计算复杂性的影响。
  3. 解决方法:提出了DAE-Former,重新制定了自注意机制,在保持计算效率的同时,捕获整个特征维度上的空间和通道关系。此外,重新设计skip connection路径,加入了cross attention模块,以确保特征的可重用性,增强定位能力
  4. 实验结果:DAE-Former在多器官心脏和皮肤病变分割数据集上的性能优于最先进的方法,而不需要预训练权重。

1、介绍

TransUNet 提供了一种分层的Transformer,通过结合卷积和注意机制来捕获全局和细粒度的局部上下文。然而,TransUNet的缺点是参数数量多,计算效率低。此外,尽管Hiformer 和上下文网络有效地连接了CNN和Transformer用于医学图像分割,但它仍然依赖于一个沉重的CNN主干。

Swin-Unet 采用了不同的视角,并提供了类似u-net的纯Transformer架构,可在不同规模和熔断器下运行使用跳过连接的不同层的特性。SWIN-UNET使用两个具有不同窗口设置的连续转换器块(移位窗口以减少计算负担)来尝试从相邻窗口中重新捕获上下文。虽然SWIN-UNET的多尺度表示增强了特征表示,但在此过程中空间背景仍然受到限制。

贡献:

1)新的高效的双注意机制来捕获输入特征向量的全部空间和信道上下文;

2)跳过连接交叉注意(SCCA)模块来自适应地融合来自编码和解码器层的特征;

3)用于医学图像分割的分层U-网纯变压器结构。

2. 算法

DAE-former(图1)是一种无卷积的U型分层纯Transformer。在给定具有空间维度H×W和C通道的输入图像x^{H\times W\times C}的情况下,DAE-Former利用patch嵌入模块从输入图像中获得大小为4×4的重叠patch tokens。

然后,tokenized的输入(x^{n\times d})通过编码器模块,具有3个堆叠的编码块,每个编码块由两个连续的双transformer层和一个patch合并层组成。在patch合并过程中,通过合并2×2的patch tokens来降低空间维度,同时使通道维度加倍使得网络以分层方式获得多尺度表示。

在解码器中,tokens在每个块中被再次扩展2倍。然后使用SCCA将每个patch扩展层的输出通过跳跃连接与并行编码层的特征进行融合。所产生的特征被馈送到两个连续的dual Transformer layers。最后,线性投影层产生输出分割图。在接下来的几节中,将首先对高效转置注意力进行简要概述。然后,介绍高效dual attention和SCCA模块。

图1:(a):DAE-former的结构。类U网结构的编码器和解码器各由3个模块组成。我们的双重注意块由有效注意和转置注意组成。(b)跳过连接交叉注意(SCCA)将来自编码器层的信息与来自较低解码器层的特征融合。

2.1 Efficient Attention

标准的自注意机制存在二次计算复杂度(O(N2)),这限制了该体系结构在高分辨率图像上的适用性。下面式子中的Q、K、V表示查询、键、值向量,d为嵌入维数。

沈等人利用self-attention产生冗余的上下文矩阵的事实来提出一种计算self-attention过程的有效方法(2):

其中\rho_q\rho_k 是query和key的归一化函数。沈等人研究表明,当使用\rho_q\rho_k 这两个归一化函数时,该模块产生等同的点积注意输出。因此,高效注意力首先将key和query归一化,然后将key和valuer相乘,最后将得到的全局上下文向量乘以查询以产生新的表示。

与点积注意力不同,Efficient Attention不会首先计算像素点之间的成对相似性。取而代之的是,keys被表示为d_k注意图K_j^T ,其中j指的是输入特征中的位置j。这些全局注意图代表了整个输入特征的语义方面,而不是与输入位置的相似性。这种顺序的改变大大降低了注意机制的计算复杂性,同时保持了较高的表征能力。

作者使用Efficient Attention来捕捉输入特征图的空间重要性。

2.2 Transpose Attention 转置注意力

交叉方差注意力,也称为转置注意力,是一种通道注意机制。该策略仅使用转置注意力来实现对较大输入大小的处理。然而,作者重新表述了这个问题,并提出了一种转置注意机制,以有效地捕获整个通道维度。转置注意力如等式(3)所示:

key和query被转置,因此,注意力权重基于交叉协方差矩阵。C_T指的是转置注意的语境向量。在计算注意力权重之前,引入温度参数τ来抵消应用于query和key的L_2范数的缩放。这增加了训练过程中的稳定性,但减少了一定的自由度,从而降低了模块的表征能力。

2.3 Efficient Dual Attention

一篇关于注意机制的文献综述表明,与单一注意相比,空间和通道注意的结合提高了模型捕捉更多上下文特征的能力因此,作者构建了一个结合了转置(通道)注意和高效(空间)注意的dual Transformer块。有效双重注意区块的结构如图2所示。有效dual Transformer块(8)包括有效注意(4),然后是add&norm (5),以及执行通道注意的转置注意力区块(6),然后是add&norm (7)。

E(·)表示有效注意,T(·)表示转置注意。

图2:有效的双重关注。它包含一个有效的注意,其次是norm& FFN和通道块注意后跟一个norm& FFN执行空间和通道的关注。

2.4 Skip Connection Cross Attention

SCCA模块如图1(b)所示。不是简单地连接编码层和解码层的功能,而是交叉关注它们,以更有效地保留底层特征。提出的模块可以有效地为每个解码器提供空间信息,使其在生成输出掩码时能够恢复细粒度的细节。

跳过连接交叉注意(SCCA)应用了efficient attention,但是,与对key、query和value使用相同的输入特性不同,用于查询的输入是由跳过连接X2的编码层的输出,因此得名。用于key和value的输入是较低解码器层X1的输出。为了融合这两个特征,需要使用线性层(10)将X1缩放到与X2相同的嵌入维度。使用X2作为查询输入背后的动机是对高效关注块内的多层表示进行建模。





3.细节补充

Figure 4: (a) Standard dot-product attention, (b) efficient attention (Shen et al., 2021),

and (c) transpose attention (Ali et al., 2021). Redrawn for comparative overview.

The Standard self-attention 基于token执行计算,因此对于高分辨率图像来说不是理想的选择。然而,The Efficient attention首先将key和value相乘,以获得全局上下文向量。结果计算需要预先对key和query进行norm,以获得与self-attention相同的结果,但计算复杂度与token数量成线性关系。Transpose attention (图4(c))也是线性的,但由于key被转置,注意力是根据输入张量的通道维数计算的。

有几种方式的通道和空间注意块可能的总和。第一个选项是使用连续的双重关注。这里,通道注意力应用于有效的输出空间注意块,反之亦然。这两个关注模块可以并行计算在相同的输入。两块的输出必须相结合,提供了更多的选择:张量可以被添加,这称为“添加剂双重关注,”或连接和美联储延时,降低了输入维度的维度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值