总体概述
大多数的语义分割研究都是基于自然,或者说是实际世界的图片。虽然这些结果不能直接应用到医学图像中,但是这些研究更加的成熟,也有很多的借鉴意义。
本篇博客首先解释了什么是语义分割问题,给出了方法的概述,最后总结了一些有趣的论文。
在后续的博客中,我会解释为什么医学图片和自然图片不同,并且研究这些方法如何应用在代表医学图像的数据集上。
什么是语义分割
语义分割是在像素层面上理解图片,比如我们想要把图片中的每个像素都分到一个目标类中。如下图所示:
除了识别摩托车和车上的人以外,我们也需要描述每个类别之间的边界。因此,不像分类问题,我们的模型要有基于像素预测的能力。
这些方法有什么区别
在深度学习统治计算机视觉领域之前,人们一般用TextonForest和Random Forest based classifiers来做语义分割。在图片分类问题上,CNN卷积神经网络在分割问题上有了很多成功的例子。
patch classification是深度学习方法中一个流行的方法,主要思想是对于每一个像素点,都用包含它的图片进行分类,然后用这个结果来预测像素点的分类。使用这个方法的原因是深度学习分类网络的输入需要是固定大小的图片。
在2014年,FCN全卷积网络在预测像素的CNN中流行起来。全卷积网络没有任何全连接层,从而图片的输入可以是任何大小的,比上面的patch classification方法快。几乎所有后来的语义分割最新研究都是采用了这个方法。
除了全连接层以外,另一个使用CNN的问题是池化层。池化层增加了感受野,能够汇聚信息,但同时也舍弃了位置信息。然而语义分割需要准确的类图索引,需要保留这些位置信息。有两个不同的结构来处理这个问题。
其中一个是编码-解码(encoder-decoder)结构。编码用池化层来逐渐减少空间维度,解码来恢复目标细节和空间维度。通常编码和解码之间有直接的连接来更好的恢复目标的细节。U-Net就是这类一个流行的结构。
第二种结构使用所谓的空洞卷积dilated/atrous convolutions,代替了池化层来减少空间维度增加感受野,同时也保留了位置信息。
条件随机场Conditional Random Field (CRF) postprocessing通常用来提升分割的效果。条件随机场是基于潜在图像强度来平滑分割的图像模型。通过观察相似强度的像素,认为同一类的像素强度相似。该方法能提升大概1-2%的分数。