SpixelFCN_Superpixel Segmentation with Fully Convolutional Networks

cocapop

已于 2023-04-15 16:53:01 修改

阅读量958

点赞数 3

分类专栏：论文文章标签：深度学习计算机视觉神经网络

于 2023-03-24 10:53:41 首次发布

本文链接：https://blog.csdn.net/cocapop/article/details/129744873

版权

论文专栏收录该内容

42 篇文章 7 订阅

订阅专栏

《Superpixel Segmentation with Fully Convolutional Networks》这篇论文提出了一种基于全卷积神经网络的超像素分割方法。本文的主要思想是利用全卷积神经网络（FCN）的特性，通过端到端的方式直接从输入图像中学习超像素的分割结果。

以下是该论文中提出的方法的详细过程：

1. 数据预处理

首先，将输入的RGB彩色图像转换为Lab颜色空间，并对其进行下采样操作，从而减小输入图像的分辨率。同时，通过对输入图像进行高斯模糊处理，可以有效地减少噪声的影响，从而得到更加平滑的输入图像。

2. 全卷积神经网络

在本文中，使用了一个由多个卷积和池化层构成的全卷积神经网络（FCN），该网络的输入是预处理后的图像。其中，卷积层用于提取图像的特征，而池化层则用于减小特征图的尺寸，从而减少计算量。此外，在每个卷积层之后，还添加了一个ReLU激活函数，以增强网络的非线性能力。

3. 超像素分割

在全卷积神经网络的最后一层，使用了一个1×1的卷积层，将特征图的通道数映射到需要的超像素数量上。然后，使用了一个基于连通性的算法（SLIC），将像素划分为超像素。在SLIC算法中，首先通过计算每个像素与其周围像素之间的距离，将像素分为若干个聚类，然后对聚类中的像素进行平均值计算，得到超像素的代表颜色和位置信息。

4. 损失函数

为了训练全卷积神经网络，需要定义一个损失函数来度量预测结果与真实标签之间的差异。在本文中，采用了一个基于像素的交叉熵损失函数，该损失函数计算预测结果和真实标签之间的交叉熵，并对所有像素的误差进行求和。

5. 训练和测试

使用带有反向传播算法的随机梯度下降（SGD）方法来训练全卷积神经网络，以最小化损失函数。在测试阶段，将预处理后的图像输入到训练好的全卷积神经网络中，得到每个像素属于哪个超像素的预测结果。最后，可以将预测结果转换为具体的结果。

聚类和分类的不同：
聚类：只需要知道如何计算相似度，不需要使用训练数据进行无监督学习。
分类：需要给定分类标准或者从训练集中学习，从而得到分类的标准依据来对未知事物进行分类，这个过程叫做监督学习。

SSN提出了端到端的可训练网络，但该方法是使用深度网络来提取像素特征，然后将其送到软链接K-means聚类模块以生成超像素。

Abstract

超像素很少整合到神经网络中的原因：标准卷积运算是在规则网络上定义的，用在超像素时效率低下。

受到传统超像素算法采用的初始化策略，提出一种方法，采用简单的全卷积网络来预测常规图像网格上的超像素。

基于预测的超像素，我们进一步开发了用于深度网络的下采样/上采样方案，目的是密集预测任务生成高分辨的输出。具体来说，我们修改了一种流行的网络体系结构（popular stereo matching network）以进行立体声匹配，以同时预测超像素和差异。

传统的超像素方法有两个致命的缺陷：一个是不可微，另外一个就是不能在规则的网格上实现。SSN解决了不可微的问题，这篇文章解决了在规则网格上低效的问题。

1.Introduction

近年来，深度神经网络（DNNs）在计算机视觉应用取得巨大成功。但网络结构设计、训练方案等在内存和时间方面对计算资源产生更大需求。4D体积（高 × 宽 × 特征通道）上的3D卷积可以更好的捕获上下文信息并学习每个视差级别的表示，从而更好的视差估计结果。但是由于额外的特征尺寸，3D卷积通常在空间分辨率上进行操作，该分辨率在时间和内存方面低于原始输入图像尺寸。例如，xxxx。

在计算机视觉中，超像素通过将感知上相似的像素分组在一起来提供图像数据的紧凑表示。作为一种有效减少后续处理的图像基元数量的方法，超像素在显著性检测、物体检测、跟踪、语义分割等视觉问题中得到了广泛的应用。

🎨但超像素还没在DNNs中广泛采用以进行降维操作，主要原因就是卷积神经网络 (CNNs) 中的标准卷积操作是在规则图像网格上定义的。为了克服这个困难，我们提出一种深度学习方法来学习规则网格上的超像素。
我们的关键是：将每个超像素与常规图像网络单元相关联，将这个作为初始化步骤。
我们的任务是：找到图像像素与规则网格单元之间的关联得分，并使用完全卷积网络 (FCN) 直接预测此类得分。

🎨选择FCN体系结构的原因：简单性、在常规网络上的输出能力。为了预测超像素，我们提出DNNs中下采样/上采样的通用框架。

🎨下图：说明我们用于深度网络的基于超像素的下采样/上采样方案。图中，我们选择PSMNet进行立体声匹配作为我们的任务网络。首先使用我们的超像素分割网络预测的超像素关联矩阵Q对高分辨率输入图像进行下采样，然后使用相同的矩阵Q对PSMNet预测的低分辨率视差量进行上采样（以进行最终的视差回归，生成高分辨率视差图）

我们用基于超像素的下采样/上采样方案代替了任务网络 (图中的PSMNet) 中用于下采样 (例如，stride-2卷积) 和上采样 (例如，双线性上采样) 的常规操作，以有效保留对象边界和精细细节。

🎨此外，生成的网络是端到端可训练的。我们联合学习框架的一个优势是，超像素分割现在直接受到下游任务的影响，这两个任务自然可以相互受益。在本文中，我们以立体声匹配为例，并展示了如何将流行的网络PSMNet(构建了许多最新的方法，例如CSPN [8] 和HSM [42]) 适应到我们的框架中。

我们进行了大量的实验来评估所提出的方法。对于超像素分割，在BSDS500和NYUv2等公共基准上的实验结果表明，我们的方法xxxx好。对于视差估计，我们的方法优于SceneFlow上的原始PSMNet 以及高分辨率数据集HR-VS和Middlebury-v3，验证了将超像素纳入下游视觉任务的好处。

🎨综上所述，论文的主要贡献有:
1.我们提出了一种用于超像素分割的简单的全卷积网络，该网络在基准数据集上实现了最先进的性能。
2.我们介绍了一个通用的基于超像素的DNNs的下采样/上采样框架。通过将超像素合并到流行的立体声匹配网络（popular stereo matching network）中，我们证明了视差估计的准确性。据我们所知，我们是第一个开发基于学习的方法的人，该方法可以同时执行超像素分割和密集预测。

作者的相关工作=超像素分割+DNNs中超像素的使用+双目立体匹配

2.Related Work

超像素分割：这里我们介绍初始化步骤中使用的常规网格的方法。

①Turbopixels：根据所需的超像素数量定期放置初始种子，并使其进行区域生长，直至形成超像素。
②：通过使用嵌入结构和紧凑性约束的测地线距离对像素进行聚类来增长超像素
③：种子初始化网格上的超像素，并通过在相邻超像素之间交换像素来不断细化边界。
④SLIC
⑤SLIC变体：将每个像素映射到10维特征空间并执行加权Kmeans的LSC ；
将图像映射到2维流形以产生对内容敏感的超像素的流形SLIC ；
用非迭代区域增长方案代替迭代K均值聚类SNIC。

🎨上述依赖手工制作的功能。最近的工作是使用DNNs从大数据中学习像素亲和力。SSN是通过网络学习像素特征，然后送到可微K-means模块中进行超像素分割，是第一个用于端到端可训练的网络。我们是训练了一个深度神经网络来直接预测pixelsuperpixel关联图。

超像素在深度神经网络中的使用：提出了将超像素集成到深度学习管道中的几种方法，这些作品通常使用预先计算的超像素来操纵学习的特征，以便可以更好地保留重要的图像属性 (例如，边界)

①：使用超像素将2D图像模式转换为1D顺序表示，这允许DNN有效地探索用于显着性检测的远程上下文。
②引入了一个 “双边初始” 模块，该模块可以插入到现有的CNN中并执行跨超像素的双边滤波
③使用超像素来池特征以进行语义分割。

🎨我们使用超像素作为下采样/上采样的有效方法。此外，这些工作都没有尝试与下游任务共同学习超像素。我们的方法类似于可变形卷积网络 (DCN)，因为两者都可以实现自适应的各个领域。然而，DCN主要是设计用于更好地处理几何变换并捕获上下文信息以进行特征提取，因此，与超像素不同，可变形卷积层不会约束每个像素必须贡献 (因此由其表示) 输出特征。

立体声匹配（Stereo matching）：该方法首先将图像分割成区域，并将参数模型 (通常是平面) 拟合到每个区域。

①Yamaguchi等人提出了一种优化框架，将参考图像联合分割成超像素并估计视差图
②训练CNN来预测初始像素差异，这些差异使用倾斜平面MRF模型进行改进
③开发了一种有效的算法，该算法仅针对像素的随机子集计算光一致性

🎨我们的工作与这些基于优化的方法根本不同。我们没有使用参数模型拟合到超像素，而是使用超像素为DNNs开发了一种新的下采样/上采样方案。

过去，深度网络利用大规模注释数据产生了很好的立体声匹配结果。采样3D卷积的最新方法由于内存限制，通常以较低的分辨率计算视差量。

3.Superpixel Segmentation Method

本节介绍基于CNN的超像素分割方法。
3.1提出直接预测规则网格上的像素-超像素关联的想法；
3.2描述我们的网络设计和损失函数
3.3进一步绘制超像素学习机制与最近的卷积空间传播 (CSP) 网络之间的联系，以学习像素亲和力
3.4在公共基准数据集上系统地评估了我们的方法

3.1 在规则网格上学习超像素

旧：进行超像素分割的通用策略是首先使用大小为H × W的规则网格对h × w图像进行分区，并将每个网格单元视为初始超像素(即，种子)，通过找到将每个像素p = (u，v) 分配给种子s = (i，j) 之一的映射。从数学上讲，如果第 (u，v) 个像素属于第 (i，j) 个超像素，我们可以将映射写为gs(p) = gi，j(u，v) = 1，否则为0。，最终获得的超像素分割。

实际上，不需要考虑所有的像素-超像素，即没必要计算所有gi，j(u，v)。
🎨对于给定的像素p，我们将搜索约束为周围网格单元Np的集合。
因此，把像素-超像素映射写为：
下图所示，对于绿色框中的每个像素p，我们仅考虑红色框中的9个网格单元进行分配。

虽然别的论文提出了几种计算G的方法，但是我们采用不同的方法计算G。
我们使用深度神经网络直接学习映射。为了使我们的目标函数可微，我们将硬赋值G替换为软关联映：

我们使用如下方法：

虽然，一个像素只与附近的9个单元之一相关联，这个约束很强烈，会导致难以生成long/large的超像素，但紧凑性用这个强度就很好。

像素本质上是一种过分割方法。由于我们的超像素方法的主要目的之一是执行细节保留的下采样/上采样以辅助下游网络，因此捕获局部区域中的空间相干性更为重要。由于信息超出了9个单元的区域，因此将其分割成碎片并将其留给下游网络进行卷积操作是没有问题的。

我们的方法v.sSSN

SSN：计算软关联映射Q。使用CNN作为提取像素特征的手段，然后将其馈送到软K均值聚类模块以计算Q。
OURS：我们将特征提取和超像素分割结合为一个步骤。通过预测像素-超像素关联图来训练CNN直接生成超像素。因此，我们的网络运行速度更快，并且可以轻松地集成到现有的CNN框架中以进行下游任务。

3.2 网络设计和损失函数

用于超像素分割的简单编码器-解码器架构——具有跳过连接的标准的编码器解码器来预测超像素关联图Q；encoder-decoder的框架，Encoder就相当于SSN中的特征提取部分，而decoder就相当于是SSN中的进行分割的部分。

分析该网络：①编码器将RGB图作为输入，通过卷积网络生成高级特征图，然后解码器通过反卷积层逐渐对特征图进行上采样，以进行最终预测。
②同时还考虑了来自相应编码器层的特征。除了应用softmax的预测层外，我们对所有层都使用leaky ReLU。

🎨损失函数=第一项对感兴趣的相似属性的像素进行分组 + 第二项强制超像素在空间上紧凑；
f(p)的两种距离度量方法，第一种是color vector，这种方法，最后的损失函数和SLIC相似；
第二种是语义标签的one-hot encoding vector的交叉熵损失函数。
【原文翻译：第一项鼓励训练后的模型对感兴趣的相似属性的像素进行分组；第二项强制超像素在空间上紧凑；其中，dist(..)是取决于像素属性f(p)的任务特定距离度量，S是超像素采样间隔，m是平衡两个项的权重。】

ps.在双目立体匹配是使用的color的形式。

通常，令f(p) 为我们希望保留超像素的像素属性。
f(p) 的示例包括3维CIELAB颜色向量和/或语义标签的N维one-hot编码向量，其中N是类的数量，以及许多其他。我们进一步用像素的图像坐标p = [x，y]T表示像素的位置。

给定预测的关联图Q，我们可以计算任何超像素s的中心，cs = (us，ls)，其中us是属性向量，ls是位置向量，如下所示:

Np是p的周围超像素的集合，而qs(p) 是p与超像素s相关联的网络预测概率。在公式 (1) 中，每个总和被获取所有像素，并有可能被分配给s。-----没懂..

那么，任意像素p的重构性质和位置由下式：

3.3 与空间传播网络的连接

[8] 提出了卷积空间传播 (CSP) 网络，该网络学习亲和力矩阵以将信息传播到几乎空间位置。通过将CSP模块集成到现有的深度神经网络中，[8] 在基于亲和力的视觉任务 (例如深度完成和细化) 中展示了改进的性能。在本节中，我们表明使用学习的关联图Q的超像素中心计算可以用CSP的形式数学编写，从而在学习Q和学习亲和力矩阵之间得出联系，如 [8]

给定一个输入特征体积，具有核大小K和步幅S的卷积空间传播 (CSP) 可以写为:

其中，是输出体积，使得和和是来自亲和力网络的输出。使得是元素乘积。

同时，要计算与第（i，j）个网格单元相关的超像素，我们要考虑3S×3S区域中的所有像素：

比较公式6和7，我们可以看到，计算大小为S × S的超像素中心等效于使用源自Q的3S × 3S内核执行CSP。此外，k i，j(a，b) 和qi，j(u，v) 都表示输入体积中的空间位置 (u，v) 和输出体积中的 (i，j) 之间的学习权重。在这方面，在我们的工作中预测Q可以看作是在 [8] 中学习亲和矩阵。

尽管如此，我们指出，尽管本工作中提出的技术与 [8] 共享相同的数学形式，但它们是出于非常不同的目的而开发的。在 [8] 中，公式。(6) 被反复使用 (S = 1) 将信息传播到附近的位置，而在这项工作中，我们使用等式(7) 计算超像素中心 (S＞1)。

3.4 实验

我们在标准基准BSDS500上使用分割标签训练我们的模型，并将其与最先进的超像素方法进行比较。为了进一步评估该方法的通用性，我们还报告了其性能，而无需对另一个基准数据集NYUv2进行微调。

实施细节：我们的模型是用PyTorch实现的，并使用Adam优化，其中 β1 = 0.9和 β2 = 0.999。我们在公式中使用公式（5）的Lsem用于本实验，用m = 0.003。
在训练过程中，我们将图像随机裁剪为208 × 208大小作为输入，并执行水平/垂直翻转以增强数据。初始学习率被设置为5 × 10-5，并且在200k次迭代之后降低一半。在大约300k次迭代时达到收敛。
对于训练，我们使用单元大小为16 × 16的网格，这相当于将所需的超像素数量设置为169。在测试一下的时间，为了生成不同数量的超像素，我们只需将输入图像的大小调整为适当的大小。例如，通过将图像调整大小为480 × 320，我们的网络将生成大约600个超像素。此外，为了进行公平比较，大多数评估协议都期望超像素在空间上连接。为了实现这一点，我们将现成的组件连接算法应用于我们的输出，该算法将小于某个阈值的超像素与周围的像素合并。

评估指标：我们使用流行的指标评估超像素方法，包括可实现的分割精度 (ASA)，边界召回率和精度 (BRBP) 以及紧凑性 (CO)。ASA使用超像素作为预处理步骤来量化可实现的分割精度，BR和BP在给定基本事实的情况下测量超像素的边界依附性，而CO则评估超像素的紧凑性。这些分数越高，分割结果越好。与 [444] 中一样，对于BR和BP评估，我们将边界公差设置为舍入到最接近整数的图像对角线的0.0025倍。我们请读者参考 [444] 的精确定义。

4.在立体声匹配中的应用

立体匹配是一项经典的计算机视觉任务，旨在查找一对校正图像之间的像素对应关系。最近的文献表明，深度网络可以通过构建4D成本量 (高度 × 宽度 × 差异 × 特征通道) 来提高匹配精度，并使用3D卷积 [7,8，46] 来聚合信息。然而，这种设计由于额外的 “视差” 维度而消耗大量内存，从而限制了它们产生高分辨率输出的能力。一种常见的补救措施是对预测的低分辨率视差量进行双采样，以进行最终视差回归。结果，对象边界经常变得模糊，精细的细节会丢失。

在本节中，我们提出了一种基于预测的超像素的下采样/上采样方案，并展示了如何将其集成到现有的立体声匹配管道中，以生成高分辨率输出，更好地保留对象边界和精细细节。

cocapop

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
SpixelFCN_Superpixel Segmentation with Fully Convolutional Networks

超像素很少整合到神经网络中的原因：标准卷积运算是在规则网络上定义的，用在超像素时效率低下。受到传统超像素算法采用的初始化策略，提出一种方法，采用简单的全卷积网络来预测常规图像网格上的超像素。基于超像素预测，我们进一步开发了用于深度网络的下采样/上采样方案，目的是密集预测任务，最终生成高分辨的输出。具体来说，我们修改了一种流行的网络体系结构（popular stereo matching network）以进行立体声匹配，以同时预测超像素和差异。
复制链接

扫一扫

专栏目录