【论文阅读】Fully convolutional networks for semantic segmentation

最新推荐文章于 2024-06-17 13:17:21 发布

w-here

最新推荐文章于 2024-06-17 13:17:21 发布

阅读量740

点赞数

分类专栏：语义分割文章标签：计算机视觉语义分割

本文链接：https://blog.csdn.net/kangweiwang/article/details/119800597

版权

语义分割专栏收录该内容

8 篇文章

订阅专栏

Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 3431-3440.

核心思想：接受任意大小的输入并通过有效的推理和学习产生相应大小的输出“的“全卷积”的网络。

基于传统的CNN的图像分割方法：

为了对一个像素分类，使用该像素周围的一个图像块作为CNN的输入用于训练和预测。这种方法有几个缺点：一是存储开销很大。例如对每个像素使用的图像块的大小为15x15，然后不断滑动窗口，每次滑动的窗口给CNN进行判别分类，因此则所需的存储空间根据滑动窗口的次数和大小急剧上升。二是计算效率低下。相邻的像素块基本上是重复的，针对每个像素块逐个计算卷积，这种计算也有很大程度上的重复。三是像素块大小的限制了感知区域的大小。通常像素块的大小比整幅图像的大小小很多，只能提取一些局部的特征，从而导致分类的性能受到限制。

FCN

输入是图片，输出也是图片，学习像素到像素的映射。

在以往的分割方法中，主要有两大类缺点，首先基于图像块的分割常见，但是效率低，往往需要前期或者后期的处理（例如超像素、proposal(检测框) 和对通过随机域事后细化或者局部分类）。其次语义分割面临在语义和位置的内在张力问题：全局信息解决的“是什么”，而局部信息解决的是“在哪里”。

三个创新点：

将分类网络结果重新解释为全卷积神经网络结构，这里面具体包括两点，一个是全连接层转化为卷积层，还有就是通过反卷积进行上采样。

使用迁移学习的方法进行 finetune ，因为很明显通过第一点可知可以将 VGG 这类有预训练权重的分类网络重新解释为 FCN

使用跳跃结构使得，使得深的粗的语义信息可以结合浅的细的表征信息，产生准确和精细的分割。

上面的 (1) (2) 主要解决第一个问题，(3) 主要解决第二个问题。

采用反卷积层对最后一个卷积层的feature map进行上采样, 使它恢复到输入图像相同的尺寸，从而可以对每个像素都产生了一个预测, 同时保留了原始输入图像中的空间信息, 最后在上采样的特征图上进行逐像素分类。

使用卷积层代替全连接层：可以让卷积网络在一张更大的输入图片上滑动，得到每个区域的输出（这样就突破了输入尺寸的限制）。

感受域（receptive field）：较浅的卷积层（靠前的）的感受域比较小，学习感知细节部分的能力强，较深的隐藏层(靠后的)，感受域相对较大，适合学习较为整体的、相对更宏观一些的特征。所以在较深的卷积层上进行反卷积还原，自然会丢失很多细节特征。

优点：一是可以接受任意大小的输入图像，而不用要求所有的训练图像和测试图像具有同样的尺寸。二是更加高效，因为避免了由于使用像素块而带来的重复存储和计算卷积的问题。

缺点：一是得到的结果还是不够精细。进行8倍上采样虽然比32倍的效果好了很多，但是上采样的结果还是比较模糊和平滑，对图像中的细节不敏感。二是对各个像素进行分类，没有充分考虑像素与像素之间的关系，忽略了在通常的基于像素分类的分割方法中使用的空间规整（spatial regularization）步骤，缺乏空间一致性。