前言
本文主要记载有关脑室内出血(IVH)情况下的脑室分割情况,是较早的提出了有关解决这个问题的工作,本文的创新点也主要集中在将深度学习应用脑室内出血分割的领域。
原论文链接:Symmetry-Aware Deep Learning for Cerebral Ventricle Segmentation With Intra-Ventricular Hemorrhage
1. Abstract & Introduction
1.1. Abstract
- 目标:本文重点讨论存在脑室内出血(IVH)下对脑室进行的分割
- 主要方法:具体来说,本文采用每个切片的原始切片和切片的水平翻转作为输入,除了它们的分割损失外,还要惩罚相应分割图之间的一致性损失。
- 难点:
IVH
所形成的闭塞现象- 脑室内出血,即脑室周围的血管破了,导致有血液涌入脑室内。血液在脑室内顺着脑脊液流动,到达第三脑室或者第四脑室,导致脑脊液循环受阻,使得颅腔内的压力骤增进而形成
occlusion
- 脑室内出血,即脑室周围的血管破了,导致有血液涌入脑室内。血液在脑室内顺着脑脊液流动,到达第三脑室或者第四脑室,导致脑脊液循环受阻,使得颅腔内的压力骤增进而形成
1.2. Introduction
由于存在于脑室内外的出血可以有相似的外观,基于特征和模型的方法都很难将脑室内的出血与脑室区分开。对于由正常 / 非IVH数据训练的基于深度学习的方法,由于室内出血的不规则形状,当应用于未见过的 IVH 切片时,它们会遇到明显的性能下降。
在本文中,我们研究了脑室分割中的 IVH 问题,并提出了一种基于二维切片的对称性感知的深度学习方法。通过探索脑室固有的对称结构,受IVH影响的脑室区域可以通过参考健康/正常区域而得到有效恢复。
- 动机
- 如何在
IVH
的情况下进行高质量的心室分割
- 如何在
- 主要贡献
- 第一个关于存在脑室内出血的脑室分割的工作
- 轻量级实施
- 由于自监督学习,所提出的对称性认知学习没有引入额外的结构和计算复杂性,这在部署上是比较可行的
- 端到端训练
- 本文提出了对称感知深度学习的两阶段框架和端到端框架,分别利用垂直对称和垂直不对称的切片,使其广泛适用于临床场景中
- 在不同的骨架和 IVH/nonIVH 切片上有一致的性能改进
2. Problem Analysis
2.1. Healthy/Normal Cases
- 健康/正常病例的脑室对比度高,边界清晰,主要的挑战是在一些切片中分割小规模的脑室
- 尽管在健康/正常情况下,脑室不是完全对称的,但惩罚对称性约束会有帮助,特别是在处理低对比度的小尺度区域时
2.2. IVH cases
根据 IVH 的大小,IVH病例被进一步分为小规模IVH病例和大规模IVH病例:
- 小规模 IVH 病例
- 虽然部分脑室完全被出血所填满,但在分割过程中只有边界区域会受到影响
- 被 IVH 填充的脑室与背景相比仍然具有高对比度,分割高对比度区域大致相当于脑室的分割
- 大规模 IVH 病例
- 在大面积出血的情况下,不仅是脑室的一部分,而且还有许多背景区域被出血覆盖
- 所有的区域都有相似的外观和对比度
- 将这些区域分类为背景会产生大量的假阴性
- 将它们分割为脑室会产生相当多的假阳性
3. Methodology
3.1. Rotation Correction
3.1.1. A label smoothing process
我们将旋转校正视为一项分类任务,直接预测每个切片的旋转角度
将一组看起来脑中线垂直的切片在一定范围内旋转随机角度,旋转角度被定义为旋转后的切片的基础真实值
因为切片并不是完全垂直,所以真实旋转角度可能不是 100% 正确,所以使用标签平滑改善网络的收敛性。即给定每个旋转角度 r r r,对其相邻的权重进行递减赋值,可以让网络意识到初始数据的角度偏差
通过这种方式,分类网络将允许一定程度的错位,稳定训练过程
3.1.2. Loss function
分类损失
L
r
o
t
\mathcal{L}_{rot}
Lrot 被定义为多类交叉熵损失:
参数含义:
- r s r_s rs:平滑化之后的 GT 旋转值
- r p r_p rp:相应的预测旋转值
- N = 121 N = 121 N=121:目标旋转范围的长度 ( − 60 , 60 ) (-60, 60) (−60,60)
训练完旋转校正网络后,它将被冻结,只用于推理(这里猜测与端到端模型有关)
3.2. Symmetry-Aware Deep Learning
3.2.1. Contrastive self-supervised learning
- self-supervised learning
- 自监督任务(self-supervised task)主要是引导我们学习一个监督损失函数
- 然而,我们通常并不关心这个任务的最终表现。相反,我们感兴趣的是学习的中间表示,期望这种带有良好的语义或结构意义的表征,可以有益于各种实际的下游任务。
- 随机旋转图像并训练模型以预测每个输入图像的旋转方式,旋转预测任务是虚构的,因此实际精度并不重要
- 具体操作:把训练资料的一部分作为 Model 的输入,另外一部分作为 Model 的 label,希望输出与 label 越接近越好。
- contrastive self-supervised learning
- 目标:将一个样本的不同的、增强过的新样本们在嵌入空间中尽可能地近,然后让不同的样本之间尽可能地远
- 在训练过程中,原始样本的增强被视为正样本,batch size 中的其余样本被视为负样本
SimCLR
框架- 本文的框架主要参考
SimCLR
框架提出
- 本文的框架主要参考
- 具体步骤:
- 取一幅图像,对其进行随机变换,得到一对增广图像 x i x_i xi 和 x j x_j xj。该对中的每个图像都通过编码器以获得图像的表示
- 然后用一个非线性全连通层来获得图像表示 z z z,其任务是最大化相同图像的 z i z_i zi 和 z j z_j zj 两种表征之间的相似性
3.2.2. Symmetry-aware learning loop
本文构建了一个对称性感知的学习循环,该循环通过最大化每个样本与其增强部分的相似度来学习表征
3.2.2.1. Self-Flip
给出旋转校正后的每个切片 I I I,我们首先通过水平翻转将 I I I 增强到 I F I^F IF
参考自监督学习,原始切片以及原始切片的数据增强版本都是正样本
3.2.2.2. Segmenter
分割网络主要参考 U-Net
进行搭建(本文搭建的完整网络结构命名为 U-Net2B
),关于 U-Net
系列网络的详细结构可以参考我的另外两篇博客:SS-Model【5】:U-Net 和 SS-Model【6】:U2-Net
将 I I I 和 I F I^F IF 分别送入分割网络,相应的分割结果分别表示为 P P P 和 P F P^F PF
原始切片和切片水平翻转增强传入的分割网络之间共享权重,这是因为虽然进行了水平翻转但是两个切片本质上还是一个切片。共享权重即不同的特征靠多个不同的卷积核实现。图像的局部统计特征在整幅图像上具有重复性(位置无关性),即若图像中存在某个基本图形,该基本图形可能出现在任意位置,则不同位置共享相同权值可实现在数据的不同位置检测相同的模式。
所以假如有一个窗口卷积后得到的特征是左心室上边缘,那么这个卷积核对应的就是心室上边缘特征的提取方式,对应地我们可以用这个卷积核去提取水平翻转过后的切片中的右心室的上边缘特征,实现了模型的压缩加速
其余有关共享权重以及卷积核的操作可以参考我的另外一篇博客:CV【2】:卷积与Conv2d
3.2.2.3. Symmetry-Aware Loss Calculation
- symmetry loss
L
s
y
m
\mathcal{L}_{sym}
Lsym
- L s y m \mathcal{L}_{sym} Lsym 是本文的关键,作者认为加入了这个损失之后,可以有效的缓解因为 IVH 形成的闭塞而带来的脑室不能有效的分割
- 通过强调分割后的结果
P
P
P 和
F
^F
F 之间的相似性,分割网络所预测的脑室被强迫为对称性的。这样,由 IVH 形成的闭塞可以通过参考健康/正常心室而得到缓解
- 因为脑室出血的绝大部分情况都是非对称的,即使两侧脑室都是有出血的情况也很少存在出血行程和位置恰好对称的情况
- 所以使用水平翻转的数据增强以及对称性损失 L s y m \mathcal{L}_{sym} Lsym,在脑室大概对称的前提下,可以通过对侧心室没有被 IVH 污染的部分来反推本侧心室的形状,以实现高效的脑室分割
- segmentation loss
L
s
e
g
\mathcal{L}_{seg}
Lseg
- 参数含义
- λ λ λ:平衡的超参数,在实验中设置为 10
- y i y_i yi:第 i i i 个像素的标签
- p i p_i pi:第 i i i 个像素的预测值
- 参数含义
- boundary loss
L
b
\mathcal{L}_{b}
Lb
- symmetry-aware loss
L
\mathcal{L}
L
- 参数含义
- α \alpha α:可调整的超参数,在实验中设置为 5
-
β
\beta
β:可调整的超参数,在实验中设置为 0.1
- 当没有 IVH 出现时,设置 β = 0 \beta = 0 β=0 会使分割网络变成一个经典的分割网络
- 参数含义
即使没有 IVH,使用对称损失 L s y m \mathcal{L}_{sym} Lsym 也会有利于分割结果
此外,由于对称性损失没有引入额外的网络复杂性,在训练中使用对称性损失作为约束条件可以成为未来心室分割任务的标准操作
4. Evaluation
4.1. Dataset and Evaluation Metric
4.1.1. Dataset
- LocalCTBrain
- 本地收集的 89 名患者,其中 53 名患者被诊断为 IVH
- IVH 在整个脑室中的比例被用作判断一个给定切片是否为 IVH 的标准
- 给定一个切片,如果其比例高于 IVH 阈值 T i v h T_{ivh} Tivh,则该切片被确定为 IVH
- 给定一个病人,如果任何一个切片是 IVH,那么该病人被诊断为 IVH
- PublicMRIBrain
- 包含 38 个没有 IVH 的病人
4.1.2. Evaluation Metric
使用以下几种常用的医学图像分割评价标准:
- Dice similarity coefficient (DSC)
- sensitivity (SE)
- specificity (SP)
- Hausdorff distance (HD)
- average surface distance (ASD)
有关评价标准的具体解释,可以参考我的另外一篇博客:MS【1】:Metric
4.2. Results in LocalCTBrain
LocalCTB 上 IVH 病例的示范性分割结果
- 小规模的 IVH
- 采用和不采用 L s y m \mathcal{L}_{sym} Lsym 的不同骨架的表现相当接近
- 但采用 L s y m \mathcal{L}_{sym} Lsym 可以帮助减少假阳性和恢复假阴性
- 大规模的 IVH
- 在没有 L s y m \mathcal{L}_{sym} Lsym 的情况下,由不同骨干分割的脑室是相当不完整的,其对称性也是扭曲的
- 采用 L s y m \mathcal{L}_{sym} Lsym,可以有效地利用脑室的健康部分来恢复受IVH影响的区域
LocalCTBrain 上健康/正常病例的示范性分割结果
- 当脑室的对称性很强时,如图 5 第 4 行所示, L s y m \mathcal{L}_{sym} Lsym 将有助于恢复假阴性,使分割的脑室更加完整
- 当对称性相对较弱时,如图 5 第 5 行所示,采用 L s y m \mathcal{L}_{sym} Lsym 仍然可以减少假阴性,使边界区域 “更清晰”
不同方法的量化结果
在从病人角度和从切片角度的评价下,SA-UNet2B
取得了最佳的整体性能。
4.3. Results on PublicMRIBrain
在没有IVH的情况下,脑室的对比度很高。根据不同骨架的结果,引入对称性损失 L s y m \mathcal{L}_{sym} Lsym 的好处相对有限
- 一方面,一些脑室区域即使在低对比度下也能恢复
- 另一方面,与 GT 真实注释相比,边界区域也可能受到
L
s
y
m
\mathcal{L}_{sym}
Lsym 的影响,导致轻微失真
- 这是因为惩罚 L s y m \mathcal{L}_{sym} Lsym 不仅会减少假阳性,也会产生假阴性,特别是在边界区域周围
5. Discussion
5.1. Validation on Varing T i v h T_{ivh} Tivh
随着 T i v h T_{ivh} Tivh 的增加,这些 IVH 切片将主要包含大面积的闭塞,有和没有对称感知学习环的每个模型之间的性能差距进一步增加。这表明了所提出的对称性损失 L s y m \mathcal{L}_{sym} Lsym 的好处,特别是处理 IVH 形成的严重闭塞。更重要的是,在不同的骨干网和不同的设置中,对称性感知损失 L s y m \mathcal{L}_{sym} Lsym 可以有效地提高整体性能,证明了所提方法的鲁棒性。
5.2. End-to-End Symmetry-Aware Learning
5.2.1. End-to-End
- 端到端的含义:
- 端到端指的是输入是原始数据,输出是最后的结果,原来输入端不是直接的原始数据,而是在原始数据中提取的特征
- 端到端的好处:
- 通过缩减人工预处理和后续处理,尽可能使模型从原始输入到最终输出,给模型更多可以根据数据自动调节的空间,增加模型的整体契合度
5.2.2. Spatial transformer networks
该模型能够让卷积网络学会数据的形状变换,能够对经过平移、旋转、缩放及裁剪等操作的图片得到与未经变换前相同的检测结果。STN 作为一种独立的模块可以在网络的任意位置插入使得网络具有空间不变性。
网络总体结构可以分为三步走:学习一个变换矩阵 - 找到位置映射关系 - 计算输出像素值
- 学习变换矩阵。输入特征图像 U U U,经过 FCN 或者 CNN 输出一个变换矩阵 θ \theta θ
- 根据变换矩阵 θ \theta θ,找到映射位置关系,注意这里是位置的对应关系,与像素值无关。就是说我们遍历输出图像的所有位置,要找到每个位置的值是由输入图像的哪个位置的值映射过来的,找出输入图像中的这个位置。找出所有的位置对应关系。output feature position -> input feature position
- 利用插值算法根据位置映射计算像素值。第二步找到了输出图像在输入图像中的位置对应关系,但是可能有小数,所以使用插值算法算出这个插值点的像素值,赋给输出图像。position -> score
总结一下:学变换,往前推找到输入图像中的位置,得到像素值再传回输出图像。
5.2.3. End-to-End Symmetry-Aware Learning
给定每个切片
I
I
I,STN
被训练来提取变换矩阵
T
=
[
θ
,
d
x
,
d
y
]
T=[\theta, dx, dy]
T=[θ,dx,dy],其中
θ
\theta
θ 是旋转角度,
[
d
x
,
d
y
]
[dx, dy]
[dx,dy] 代表平移矢量,从而将
I
I
I 转化为
I
V
S
=
T
(
I
)
I_{VS} = T(I)
IVS=T(I)
- Reconstruction loss
- 其中 T − 1 T^{-1} T−1 是 T T T 的反向变换矩阵
- Symmetry loss
- 然后,对对称性损失 L V S \mathcal{L}_{VS} LVS 进行惩罚,以确保 I V S I_{VS} IVS 是垂直对称的
- Regulizer
- 保证 T T T 不会扭曲原始输入 I I I
- 参数含义:
- d x dx dx 和 d y dy dy 被归一化为 [ 0 , 1 ] [0,1] [0,1]
- 0.2 0.2 0.2 代表允许的最大平移距离
-
λ
\lambda
λ 被设置为 1000 以避免过度转换
- 如本节开头的图所示, I V S I_{VS} IVS 中的一些内容已经丢失(即顶部区域),如果没有额外的约束,在过度变换下,核心内容(即脑室)可能被扭曲或完全丢失
- Total loss
5.2.4. Dynamic weighting mechanism
为了更好地处理不对称切片,我们建立了一个动态加权机制,以确定在训练期间是否以及如何对每个切片的对称性损失
L
s
y
m
\mathcal{L}_{sym}
Lsym 进行惩罚:
对称性损失被重新写成:
- 一方面,通过 L ‘ s y m \mathcal{L}‘_{sym} L‘sym 训练可以有效地恢复那些被 IVH 闭塞的脑室,从而得到更完整的分割结果
- 另一方面,对对称性约束的惩罚有助于消除假阳性(即错误检测),因为它们更可能是不对称的
5.3. Limitation and Future Work
所提出的对称性感知深度学习的一个限制是在训练过程中对切片的动态权重 W W W 的设计
- 每个切片的权重是根据脑室的对称性来确定的。
- 在某些情况下,对称性强但没有脑室内出血的切片会被赋予较高的权重
- 而那些有严重脑室内出血的切片则可以相对忽略,这限制了对称性感知深度学习的性能上限
- 在未来的工作中,应该对输入的切片和其 GT 注释进行联合分析
- 虽然可以恢复更多被IVH闭塞的脑室,但由于缺乏额外的约束条件,它们可能会遭受低响应
总结
总的来说,本文的创新性(方法)没有很强,且实验数据显示的提升也并没有很明显,但创新性的将对称性即 U-Net 引入没有什么研究以及较难的脑室内出血分割问题中,为之后的研究提供了参考