TransUnet

一、概述

CNN的局限性:对于在纹理、形状和大小方面显示出较大患者间差异的目标结构表现不佳。

二、Method

输入 x ∈ R H × W × C x\in \R^{H\times W \times C} xRH×W×C
目标:预测大小为 H × W H\times W H×W的像素级labelmap

2.1 Transformer as Encoder

2.1.1 Image Sequentialization

  将输入 x x x展开为一系列二维patch, x p i ∈ R P 2 C ˙ ∣ i = 1 , . . . , N {x_p^i \in \R^{P^2\dot C}|i=1,...,N} xpiRP2C˙i=1,...,N,其中,每个patch的大小为 P × P P\times P P×P,数量为 N = H W / P 2 N={HW}/{P^2} N=HW/P2

2.1.2 Patch embedding

  使用可训练的线性投影将 x p x_p xp映射到一个 D D D维嵌入空间中去,并且为了编码patch的空间信息,在patch embeddibgs中加入位置信息:
z 0 = [ x p 1 E ; x p 2 E ; . . . ; x p N E ] + E p o s (1) z_0=[x_p^1E;x_p^2E;...;x_p^NE]+E_{pos}\tag{1} z0=[xp1E;xp2E;...;xpNE]+Epos(1)
其中, E ∈ R ( P 2 C ˙ ) × D E \in \R^{(P^2\dot C)\times D} ER(P2C˙)×D E p o s ∈ R N × D E_{pos}\in \R^{N\times D} EposRN×D
  Transformer encoder包含 L L L层的多头注意力网络和多层感知器模块,第 l l l层的输入如下:
z l ′ = M S A ( L N ( z l − 1 ) ) + z l − 1 , (2) z^{'}_l=MSA(LN(z_{l-1}))+z_{l-1},\tag 2 zl=MSA(LN(zl1))+zl1,(2) z l = M L P ( L N ( z l − 1 ) ) + z l , (3) z_l=MLP(LN(z_{l-1}))+z_{l},\tag 3 zl=MLP(LN(zl1))+zl,(3)

2.2 TransUNet

  Navie upsampling baseline:为恢复空间顺序,首先将 H W / P 2 HW/P^2 HW/P2恢复为 H / W × W / P H/W \times W/P H/W×W/P,然后使用 1 × 1 1 \times 1 1×1的卷积将通道数减少为类别的个数,采用双线性插值上采样到 H × W H \times W H×W大小,用来做最终的预测。但会造成细节信息的缺失。

2.2.1 CNN-Transformer Hybrid as Encoder

  主要是解决单用Transformer进行encoder后,得到的特征图 H / P × W / P H/P \times W/P H/P×W/P小于原始图像的像素 H × W H \times W H×W,缺乏有效的上采样措施。在解码的时候也无法对图像的细节特征进行有效利用。
  因此提出了上图所示的CNN与Transformer相混合的编码器。

2.2.2 Cascaded Upsampler

  使用级联的上采样块,每个块包含 2 2 2倍的上采样运算符,一个 3 × 3 3 \times 3 3×3的卷积层和 R e L U ReLU ReLU层。并采用U-Net型的跳跃连接来融合编码器相应层的特征图。

三、Experiments

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值