Abstract
总目标体积(Gross Target Volume, GTV)分割在鼻咽癌(NasoPharyngeal Carcinoma, NPC)的放疗计划中起着不可替代的作用。尽管卷积神经网络(CNN)在这一任务中取得了良好的性能,但它们依赖于大量的标记图像进行训练,而这些图像的获取是昂贵和耗时的。在本文中,我们提出了一个新颖的框架,采用不确定修正金字塔一致性(URPC)正则化,用于半监督的NPC GTV分割。具体来说,我们扩展了一个骨干分割网络来产生不同尺度的金字塔预测。金字塔预测网络(PPNet)由已标记图像的基础真值和未标记图像的多尺度一致性损失监督,其动机是对同一输入的不同尺度的预测应该是相似和一致的。然而,由于这些预测的分辨率不同,鼓励它们直接在每个像素上保持一致,其鲁棒性较低,可能会失去一些细微的细节。为了解决这个问题,我们进一步设计了一个新颖的不确定性矫正模块,使框架能够逐渐从不同尺度上有意义的、可靠的一致区域中学习。在一个有258张NPC MR图像的数据集上的实验结果表明,在只有10%或20%的图像被标记的情况下,我们的方法通过利用未标记的图像在很大程度上提高了分割性能,而且它也优于五个最先进的半监督分割方法。此外,当只有50%的标记图像时,URPC取得了82.74%的平均Dice分数,接近于完全监督学习。
Method
本文提出了一个使用半监督进行鼻咽癌分割的框架,如下所示:
主要亮点在于不确定性(uncertainty)的计算方式。传统方法诸如MC-Dropout依赖于对同一张图像进行多次推理,从而较为耗时。本文受分割任务中常用的deep supervision的启发,提出了一种"Multi-Scale Consistency",即各级decoder输出的内容应该是一致的:
D
s
≈
∑
j
=
0
C
p
s
j
⋅
log
p
s
j
p
c
j
\mathcal{D}_{s} \approx \sum_{j=0}^{C} p_{s}^{j} \cdot \log \frac{p_{s}^{j}}{p_{c}^{j}}
Ds≈j=0∑Cpsj⋅logpcjpsj 使用的是KL散度。
p
s
p_s
ps为各级decoder的预测结果,
p
c
p_c
pc为各级decoder的预测结果的平均。这一不确定性有两种作用,直接看最终的无监督损失:
L
unsup
=
1
S
∑
s
=
0
S
−
1
∑
v
(
p
s
v
−
p
c
v
)
2
⋅
w
s
v
∑
s
=
0
S
−
1
∑
v
w
s
v
+
1
S
∑
s
=
0
S
−
1
∥
D
s
∥
2
\mathcal{L}_{\text {unsup }}=\frac{1}{S} \frac{\sum_{s=0}^{S-1} \sum_{v}\left(p_{s}^{v}-p_{c}^{v}\right)^{2} \cdot w_{s}^{v}}{\sum_{s=0}^{S-1} \sum_{v} w_{s}^{v}}+\frac{1}{S} \sum_{s=0}^{S-1}\left\|\mathcal{D}_{s}\right\|_{2}
Lunsup =S1∑s=0S−1∑vwsv∑s=0S−1∑v(psv−pcv)2⋅wsv+S1s=0∑S−1∥Ds∥2 包含两部分。右边这个
1
S
∑
s
=
0
S
−
1
∥
D
s
∥
2
\frac{1}{S} \sum_{s=0}^{S-1}\left\|\mathcal{D}_{s}\right\|_{2}
S1∑s=0S−1∥Ds∥2指的就是直接约束各级输出结果应尽可能一致,而左边这个相当于额外利用这个uncertainty做了一个attention,即选择"各级输出结果一致"的像素来参与监督过程。如果有的位置预测结果是不一致的,意味着该区域不确定性较高,不将其纳入监督。