论文阅读之InvertedNet
Fully Convolutional Architectures for Multi-Class
Segmentation in Chest Radiographs
from TMI2018
摘要:
本文提出的网络结合了delayed subsampling、指数线性单元(exponential linear unit)、以及大量高分辨率的浅层特征用于胸片分割(CXR)肺、心脏、锁骨等多类别分割任务。在JSRT数据集上Jaccard指标分别为:lung(95%) clavicle(86.8%)heart(88.2%)
Section I
CXR分割由于个体年龄、性别、组织之间的重叠存在的差异性导致分割困难,比如肺部边界往往不明显(尤其是靠近心脏区域)。因此本文测试了3种全卷积神经网络,并提出了自己的InvertedNet网络。InvertedNet在特征提取网络部分使用了延时采样获取大量高分辨率的浅层特征,在参量比UNet少10倍的情况下取得了更好的分割精度。
Part A相关工作
CXR胸片分割已经有大量研究工作但各种解决方案没有一个统一的评价方法,本文采用的是较为广泛使用的JaccardIndex。
传统方法:像素级分类、基于统计学的方法。一些研究也表明采用混合方法可进一步提升分割效果。CXR主要集中在肺部分割,锁骨部分分割相对困难。
基于神经网络的方法:一些基于大型分割数据集(如Pascal VOC-2012)的语义分割网络并不十分适合医学图像分割领域。
经典网络有全卷积神经网络(FCN)、UNet;以及通过引入recurrent的思想增强信息流动等优化策略。
本文也是基于UNet进行了一些优化用于CXR分割,具体创新点有:
(1)提出了InvertedNet用于X光图片的肺部、心脏、锁骨等多分割网络;
(2)网络使用的ELU激活单元而不是传统的ReLu用来加速训练、获得更高的overlap score
(3)InvertedNet与UNet相比,本文参量降低了10倍左右。
Section II Methodology
UNet在医学图像分割领域广泛使用,因为可以较好的权衡分割精度和小规模的数据集而不至于过拟合,但原始网络大量特征图谱使得整个模型参量十分庞大。因此本文对提取的特征图谱的深度方面进行了优化,在原始UNet第三次下采样前对filter进行分组(如通过K-means,PCA主成分分析),对于一些贡献较小的核随机失活其中的25%,然后对比两种模式下网络的输出,重复上述deactivate过程
具体测试的网络结构有:
Case A All-Dropout
在每次卷积后都是用dropout层,通过正则化的约束防止由于有限训练样本容易导致的过拟合问题。
Case B All Convolutional
前人有将池化层用一定步长的卷积层代替来简化卷积神经网络,可被看作不再使用固定尺寸的卷积而是一种学习策略。通过learning-pooling简化全卷积神经网络,将原先固定的池化鞥完全移除或者用更大步长的conv层替换可以提升最终结果。
Case C InvertedNet
即使在All-Dropout结构中经过contracting path后提取到的特征数量仍然十分庞大,而且可视化后发现大部分feature map的响应没有学到十分有意义的特征。
因此,根据He工作的启发(通过降低模型表达能力抑制过拟合)本文引入了延时下采样池化层(delayed subsampling pooling layer);除此之外还重排了conv层输出的特征图谱们。
上述三种结构分别对应于Fig 3(b)©(d)
Section III 实验细节
Dataset:JSRT dataset 包含247张PA胸片,分辨率为20482048,12bit深度。
做三分类:左右肺、左右锁骨、心脏。
进行了归一化的预处理。
评价指标为Dice系数,Jaccard
# Section IV实验结果讨论与分析
TableI给出了原始UNet与本文提出的三种结构进行多类别分割任务的结果对比;均比UNet获得了更好的提升,也能看出clavicle分割时最难得。
分辨率进一步降低,当patch=128128使InvertedNet取得了最佳效果。
通过可视化提取到的特征图谱发现,InvertedNet更能捕捉到锋利的边缘变化从而有助于形状分割;本文还测试了将InvertedNet中的ReLU替换为ELU。
接下来还会进一步考虑skip connection中哪些是有效地哪些是冗余的。