论文详解-Fully Convolutional Networks for Semantic Segmentation

sanguine__

已于 2024-03-10 21:21:46 修改

阅读量958

点赞数 8

文章标签：深度学习图像处理计算机视觉人工智能神经网络

于 2024-01-18 22:59:32 首次发布

本文链接：https://blog.csdn.net/sanguine__/article/details/135605652

版权

本文介绍全卷积网络（FCN）用于语义分割，将当代分类网络改编为FCN，通过微调转移学习表示。定义跳过架构结合深浅层信息，实现端到端像素级预测。在多个数据集上改进分割结果，推理快，代码开源，还探讨了学习、推理及相关参数关系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

卷积网络是强大的视觉模型，可以产生特征层次结构。我们展示了卷积网络本身，经过端到端，像素到像素的训练，在语义分割方面改进了之前的最佳结果。我们的关键见解是建立“完全卷积”网络，该网络可以接受任意大小的输入，并通过有效的推理和学习产生相应大小的输出。我们定义和详细描述了全卷积网络的空间，解释了它们在空间密集预测任务中的应用，并绘制了与先前模型的连接。我们将当代分类网络(AlexNet, VGG网络和GoogLeNet)改编为全卷积网络，并通过微调将其学习到的表示转移到分割任务中。然后，我们定义了一个跳过架构，该架构结合了来自深层粗糙层的语义信息和来自浅层精细层的外观信息，以产生准确而详细的分割。我们的全卷积网络实现了PASCAL VOC、NYUDv2、SIFT Flow和PASCAL- context的改进分割(相对于2012年的67.2%平均IU提高了30%)，而对典型图像的推理只需要十分之一秒。

语义分割，卷积网络，深度学习，迁移学习

空间密集预测是指对输入图像中的每个像素进行预测或分类的过程。在语义分割任务中，空间密集预测意味着对图像中的每个像素进行分类，以便将图像分割成具有语义信息的区域。全卷积网络（FCN）通过实现空间密集预测，能够有效地处理语义分割等任务，因为它们可以接受任意大小的输入并产生相应大小的输出，从而实现了端到端的像素级预测。

引言

Convnets不仅在整幅图像分类方面不断进步，而且在具有结构化输出的局部任务上也取得了进展。这些进步包括边界盒目标检测，部分和关键点预测，以及局部对应。
以前的语义分割方法通常是将每个像素标记为其所在对象或区域的类别，但这种方法存在一些缺陷，而本文介绍的方法可以解决这些缺陷。

这里的缺陷指的是：以前的方法可能会忽略全局信息或局部信息，或者需要使用复杂的后处理技术来提高分割的准确性。而本文介绍的全卷积网络方法可以同时考虑全局和局部信息，并且可以直接从图像中学习到像素级别的预测，从而避免了后处理的需要。

语义分割面临语义和位置之间固有的紧张关系:全局信息解决什么问题，而局部信息解决哪里问题。如何将这个范围从位置导航到语义?局部决策如何尊重全局结构?目前还不清楚用于图像分类的深度网络是否能产生足够精确的像素识别表示
我们将预训练的网络转换为完全卷积形式，并使用利用完整特征谱的跳过架构对其进行增强。跳跃结构融合了特征层次，将深度的、粗糙的语义信息和浅的、精细的外观信息结合在一起(参见第4.3节和图3)。因此，深度特征层次在一个非线性的局部到全局金字塔中编码位置和语义。
对PASCAL-Context数据集进行的实验结果表明，将对象分割和场景解析合并为统一的像素级预测任务是可行的。在这个任务中，每个像素都被标记为属于哪个对象或场景类别，从而生成与输入图像相同大小的分割图像。

2.相关工作

我们的方法借鉴了深度网络最近在图像分类[1]，[2]，[3]和迁移学习[18]，[19]方面的成功。迁移首先在各种视觉识别任务中得到证明[18]，[19]，然后在混合提议分类器模型的检测和实例和语义分割中得到证明[5]，[14]，[15]。我们现在重新构建和微调分类网络，以直接、密集地预测语义分割。我们绘制了fcn的空间图，并将历史和最近的先前模型联系起来。

混合提议-分类器模型（hybrid proposal-classifier models）是一种结合了目标提议和分类器的模型。在这种模型中，首先使用目标检测或提议生成算法（如R-CNN）生成候选目标提议，然后将这些提议输入到分类器中进行分类。这种方法结合了目标检测和分类的优点，能够在图像中识别和定位不同的目标。在语义分割任务中，这种模型可以用于生成候选的目标区域，然后对这些区域进行像素级别的分类，从而实现语义分割的任务。

将卷积网络扩展到任意大小输入的想法最早出现在Matan等人[20]，他们扩展了经典的LeNet[21]来识别数字串。由于他们的网络被限制为一维输入字符串，Matan等人使用Viterbi decoding来获得它们的输出。Wolf和Platt[22]将convnet输出扩展为邮政地址块四个角的检测分数的二维地图。这两种历史作品都完全卷积地进行推理和学习以进行检测。Ning等[10]定义了一种用于C. elegans组织粗多类分割的convnet。并使用完全卷积推断（fully convolutional inference）进行实现。

Viterbi decoding是一种动态规划算法，通常用于在隐马尔可夫模型（HMM）或其他具有状态转移概率和观测概率的模型中找到最可能的状态序列。在语音识别、自然语言处理和通信系统等领域经常会用到Viterbi解码算法。该算法通过计算每个时刻的最可能状态路径，从而找到整体上最可能的状态序列。它利用动态规划的思想，通过递推地计算局部最优解来得到全局最优解。Viterbi解码算法对于处理具有大量状态和状态转移的问题非常有效，因为它能够在多个可能的状态序列中高效地找到最可能的序列。在图像处理或语音识别中，Viterbi解码算法可以用于识别最可能的图像标记序列或语音信号序列，从而实现诸如词性标注、语音识别等任务。

Wolf和Platt在他们的工作中使用卷积神经网络（convnet）将输出扩展为用于检测邮政地址块四个角的二维地图。这意味着他们使用卷积神经网络来生成用于定位邮政地址块四个角的检测分数的二维地图。这种方法可以帮助识别邮政地址块的位置和边界，从而在自动化邮件处理等应用中发挥作用。Wolf和Platt的工作可能涉及使用卷积神经网络进行目标检测和定位，以便有效地识别和定位邮政地址块。

Ning等人在他们的工作中使用卷积神经网络（convnet）进行C. elegans组织的粗略多类别分割，并使用完全卷积推断（fully convolutional inference）进行实现。这意味着他们使用卷积神经网络来对C. elegans组织进行分割，而不是使用传统的基于像素的分类方法。完全卷积推断是指使用卷积神经网络进行像素级别的分类和分割，而不是使用传统的全连接层。这种方法可以帮助识别和分割C. elegans组织中的不同细胞类型和结构，从而在生物医学研究中发挥作用。Ning等人的工作可能涉及使用卷积神经网络进行生物医学图像分析和分割，以便有效地识别和分割不同的细胞类型和结构。

全卷积计算也被用于当前的多层网络时代。Sermanet等人[4]的滑动窗口检测，Pinheiro和Collobert[13]的语义分割，以及Eigen等人[23]的图像恢复都是完全卷积推理。完全卷积训练很少见，但被thompson等人有效地使用[24]学习端到端的部分检测器和用于姿态估计的空间模型，尽管他们没有对这种方法进行展示或分析。
最近的一些研究将卷积神经网络应用于密集预测问题，包括Ning等人[10]的语义分割，Farabet等人的语义分割[12]， Pinheiro and Collobert [13];Ciresan等人[11]对电子显微镜的边界预测，以及Ciresan等人对自然图像的边界预测。Ganin and Lempitsky [16]对于自然图像采用混合卷积/最近邻模型，以及Eigen等[23]，[25]的图像恢复和深度估计。这些方法的共同元素包括：

- 小型模型限制容量和感受野：指使用容量较小的模型，这些模型在处理图像时受到了一定程度的限制，通常具有较小的感受野（receptive fields），即在图像中用于感知信息的局部区域。

- 分块训练：指将图像分成小块进行训练，这种方法通常用于处理大尺寸图像或者为了提高训练效率。

- 通过超像素投影、随机场正则化、滤波或局部分类进行细化：描述了一些用于改进分割结果的技术，例如将超像素投影到图像上、应用随机场正则化、滤波或局部分类等方法。

- “交错”以获得密集输出：指通过交错或交叉的方式来获得密集的输出，通常用于生成像素级别的预测结果。

- 多尺度金字塔处理：描述了使用多尺度金字塔（pyramid）来处理图像，以便在不同尺度上进行分析和预测。

- 饱和tanh非线性：指使用饱和tanh函数作为非线性激活函数的一种方法，这种函数在神经网络中常用于引入非线性。

- 集成：描述了使用集成学习方法，将多个模型的预测结果进行整合以获得更好的性能。这些方法和技术在图像分割和密集预测领域中被广泛使用，用于改进模型的性能和处理各种复杂的图像分析任务。

Hariharan等人[14]和Gupta等人[15]同样采用深度分类网络进行语义分割，但采用的是混合提议-分类器模型。这些方法通过采样边界框和/或区域建议来微调R-CNN系统[5]，用于检测、语义分割和实例分割。这两种方法都不是端到端学习的。它们分别在PASCAL VOC和NYUDv2上实现了之前的最佳分割结果，因此我们直接将我们的独立端到端FCN与第5节中的语义分割结果进行比较。

混合提议分类器模型是一种结合了提议生成和分类器的模型，通常用于目标检测和语义分割等任务。在这种模型中，首先通过提议生成算法（如选择性搜索或区域提议网络）生成候选目标的提议（bounding box或像素级别的区域），然后将这些提议输入到分类器中进行目标分类或分割。这种模型的典型例子是R-CNN（Region-based Convolutional Neural Network）系列模型，包括R-CNN、Fast R-CNN、Faster R-CNN等。在这些模型中，候选目标的提议首先由提议生成算法生成，然后这些提议被送入卷积神经网络进行特征提取和目标分类。这种结合了提议生成和分类器的模型能够有效地处理目标检测和语义分割任务，同时也为后续的模型优化和改进提供了基础。总的来说，混合提议分类器模型通过结合提议生成和分类器，能够实现对图像中目标的有效检测和分割，是目标检测和语义分割领域的重要模型之一。

我们融合跨层的特征来定义一个非线性的局部到全局的表示，然后进行端到端调优。
在本文会议版之后[17]，FCN扩展到新的任务和数据。任务包括区域建议[31]、轮廓检测[32]、深度回归[33]、光流[34]和弱监督语义分割[35]、[36]、[37]、[38]。
此外，新的研究成果对本文提出的fcn进行了改进，进一步推动了语义分割的发展。DeepLab模型[39]通过扩展卷积和密集CRF推理提高了输出分辨率。联合CRFasRNN[40]模型是CRF的端到端集成，有待进一步改进。ParseNet[41]对融合特征进行规范化，并使用全局池捕获上下文。[42]的“反卷积网络”方法通过使用提议、一系列经过学习的反卷积层和上采样操作来恢复图像的分辨率。U-Net[43]结合了跳跃层和学习反卷积，用于显微镜图像的像素标记。[44]的膨

最低0.47元/天解锁文章