一、概述
CNN的局限性:对于在纹理、形状和大小方面显示出较大患者间差异的目标结构表现不佳。
二、Method
输入:
x
∈
R
H
×
W
×
C
x\in \R^{H\times W \times C}
x∈RH×W×C
目标:预测大小为
H
×
W
H\times W
H×W的像素级labelmap
![](https://i-blog.csdnimg.cn/blog_migrate/00c5f8cb1dce1c6877b3afbd43e8773b.png)
2.1 Transformer as Encoder
2.1.1 Image Sequentialization
将输入 x x x展开为一系列二维patch, x p i ∈ R P 2 C ˙ ∣ i = 1 , . . . , N {x_p^i \in \R^{P^2\dot C}|i=1,...,N} xpi∈RP2C˙∣i=1,...,N,其中,每个patch的大小为 P × P P\times P P×P,数量为 N = H W / P 2 N={HW}/{P^2} N=HW/P2。
2.1.2 Patch embedding
使用可训练的线性投影将
x
p
x_p
xp映射到一个
D
D
D维嵌入空间中去,并且为了编码patch的空间信息,在patch embeddibgs中加入位置信息:
z
0
=
[
x
p
1
E
;
x
p
2
E
;
.
.
.
;
x
p
N
E
]
+
E
p
o
s
(1)
z_0=[x_p^1E;x_p^2E;...;x_p^NE]+E_{pos}\tag{1}
z0=[xp1E;xp2E;...;xpNE]+Epos(1)
其中,
E
∈
R
(
P
2
C
˙
)
×
D
E \in \R^{(P^2\dot C)\times D}
E∈R(P2C˙)×D,
E
p
o
s
∈
R
N
×
D
E_{pos}\in \R^{N\times D}
Epos∈RN×D。
Transformer encoder包含
L
L
L层的多头注意力网络和多层感知器模块,第
l
l
l层的输入如下:
z
l
′
=
M
S
A
(
L
N
(
z
l
−
1
)
)
+
z
l
−
1
,
(2)
z^{'}_l=MSA(LN(z_{l-1}))+z_{l-1},\tag 2
zl′=MSA(LN(zl−1))+zl−1,(2)
z
l
=
M
L
P
(
L
N
(
z
l
−
1
)
)
+
z
l
,
(3)
z_l=MLP(LN(z_{l-1}))+z_{l},\tag 3
zl=MLP(LN(zl−1))+zl,(3)
2.2 TransUNet
Navie upsampling baseline:为恢复空间顺序,首先将 H W / P 2 HW/P^2 HW/P2恢复为 H / W × W / P H/W \times W/P H/W×W/P,然后使用 1 × 1 1 \times 1 1×1的卷积将通道数减少为类别的个数,采用双线性插值上采样到 H × W H \times W H×W大小,用来做最终的预测。但会造成细节信息的缺失。
2.2.1 CNN-Transformer Hybrid as Encoder
主要是解决单用Transformer进行encoder后,得到的特征图
H
/
P
×
W
/
P
H/P \times W/P
H/P×W/P小于原始图像的像素
H
×
W
H \times W
H×W,缺乏有效的上采样措施。在解码的时候也无法对图像的细节特征进行有效利用。
因此提出了上图所示的CNN与Transformer相混合的编码器。
2.2.2 Cascaded Upsampler
使用级联的上采样块,每个块包含 2 2 2倍的上采样运算符,一个 3 × 3 3 \times 3 3×3的卷积层和 R e L U ReLU ReLU层。并采用U-Net型的跳跃连接来融合编码器相应层的特征图。
三、Experiments
![](https://i-blog.csdnimg.cn/blog_migrate/03df4c32ff6a49f12c191770818ffb67.png)