【论文阅读】Unsupervised Learning of Image Segmentation Based on Differentiable Feature Clustering

新人如附件

已于 2024-04-28 21:52:07 修改

阅读量1k

点赞数 28

分类专栏：论文阅读笔记文章标签：论文阅读算法

于 2024-04-28 21:51:40 首次发布

本文链接：https://blog.csdn.net/qq_42957563/article/details/138292265

版权

论文阅读笔记专栏收录该内容

32 篇文章 1 订阅

订阅专栏

Unsupervised Learning of Image Segmentation Based on Differentiable Feature Clustering

论文地址

1、论文地址
2、论文源码地址

摘要

本研究调查了卷积神经网络 (CNN) 在无监督图像分割中的应用。与监督图像分割类似，所提出的 CNN 将标签分配给表示像素所属的簇的像素。然而，在无监督图像分割中，事先没有指定训练图像或像素的地面真实标签。因此，一旦输入目标图像，像素标签和特征表示就会联合优化，并通过梯度下降更新它们的参数。在所提出的方法中，标签预测和网络参数学习交替迭代以满足以下标准：（a）相似特征的像素应分配相同的标签，（b）空间连续的像素应分配相同的标签，以及（c ) 唯一标签的数量应该很大。尽管这些标准不兼容，但所提出的方法最大限度地减少了相似性损失和空间连续性损失的组合，以找到一种合理的标签分配解决方案，可以很好地平衡上述标准。这项研究的贡献有四方面。首先，我们提出了一种新颖的端到端无监督图像分割网络，该网络由归一化和用于可区分聚类的 argmax 函数组成。其次，我们引入了一个空间连续性损失函数，它减轻了以前工作所拥有的固定段边界的局限性。第三，我们提出了一种以涂鸦作为用户输入的分割方法的扩展，它在保持效率的同时显示出比现有方法更好的准确性。最后，我们介绍了所提出方法的另一个扩展：通过使用使用一些参考图像预训练的网络进行不可见图像分割，而无需重新训练网络。在图像分割的几个基准数据集上检查了所提出方法的有效性。

一、简介

几十年来，图像分割在计算机视觉研究中引起了人们的关注。图像分割的应用包括对象检测、纹理识别和图像压缩。在监督图像分割中，由图像对和像素级语义标签（如“天空”或“自行车”）组成的集合用于训练。目标是训练一个系统，对图像像素的已知类别的标签进行分类。相比之下，无监督图像分割用于预测更一般的标签，例如“前景”和“背景”。后者比前者更具挑战性。此外，将图像分割成任意数量（≥2）的合理区域非常困难。这项研究考虑了一个问题，其中图像被划分为任意数量的显着或有意义的区域，而没有任何先前的知识。
一旦获得了像素级的特征表示，就可以通过对特征向量进行聚类来获得图像片段。然而，特征表示的设计仍然是一个挑战。所需的特征表示很大程度上取决于目标图像的内容。例如，如果目标是将斑马检测为前景，则特征表示应该对黑白垂直条纹产生反应。因此，像素级特征应该描述每个像素周围局部区域的颜色和纹理。最近，卷积神经网络（CNN）已成功应用于自动驾驶和增强现实游戏等监督学习场景中的语义图像分割。 CNN 不常用于完全无监督的场景。然而，它们具有从图像像素中提取详细特征的巨大潜力，这对于无监督图像分割是必要的。在 CNN 的高特征描述性的驱动下，提出了一种联合学习方法，该方法可以预测任意图像输入的未知聚类标签，并学习图像像素聚类的最佳 CNN 参数。随后，提取每个簇中的一组图像像素作为一个片段。
进一步讨论了良好图像分割所必需的簇标签的特征。与之前关于无监督图像分割的研究 [1]、[2] 类似，假设好的图像分割解决方案与人类提供的解决方案很好地匹配。当要求人类对图像进行分割时，他们很可能会创建分割，每个分割对应于单个对象实例的全部或显着部分。一个对象实例往往包含相似颜色或纹理图案的大区域。因此，将具有相似颜色或纹理图案的空间连续像素分组到同一个簇中是一种合理的图像分割策略。为了从不同的对象实例中分离片段，最好将不同的簇标签分配给不同图案的相邻像素。为了促进聚类分离，还考虑了需要大量唯一聚类标签的策略。综上所述，引入以下三个聚类标签预测标准：
（a）应为相似特征的像素分配相同的标签。
（b）空间连续像素应被指定相同的标签。
（c）唯一分类标签的数量应很大

在本文中，我们提出了一种基于 CNN 的算法，该算法联合优化特征提取函数和聚类函数以满足这些标准。在这里，为了实现 CNN 的端到端学习，提出了一种使用可微函数预测聚类标签的迭代方法。代码可在线获取 1.本研究是对之前发表在 2018 年声学、语音和信号处理国际会议 (ICASSP) [3] 上的研究的延伸。在之前的工作中，使用简单线性迭代聚类 [4] 的超像素提取被用于标准 (b)。然而，以前的算法有一个局限性，即在超像素提取过程中，片段的边界是固定的。在这项研究中，提出了空间连续性损失作为减轻上述限制的替代方法。此外，还介绍了基于我们改进的无监督分割方法的两个新应用：用户输入分割和利用不同图像的无监督学习获得的网络权重。由于所提出的方法是完全无监督的，它根据图像的性质对图像进行分割，这并不总是与用户的意图相关。作为所提出方法的示例应用，使用涂鸦作为用户输入，并将效果与其他现有方法进行比较。随后，所提出的方法迭代地获得单个输入图像的分割结果会产生很高的计算成本。因此，作为所提出方法的另一个潜在应用，使用了使用多个参考图像预训练的网络权重。一旦使用所提出的算法从多个图像中获得网络权重，就可以通过固定网络分割新的未见过的图像，前提是它与参考图像有些相似。还演示了该技术在视频分割任务中的应用。本文的贡献总结如下。
• 我们提出了一种新颖的无监督图像分割端到端可微分网络。
• 我们引入了空间连续性损失函数这减轻了我们以前的方法 [3] 的局限性。
• 我们提出了一个扩展方法，用于以涂鸦作为用户输入的分割，在保持效率的同时显示出比现有方法更好的准确性。
• 我们介绍了另一个扩展方法：通过使用使用一些参考图像预训练的网络进行看不见的图像分割，而无需重新训练网络。

二、相关工作

图像分割是为图像中的所有像素分配标签的过程，以便为共享某些像素的像素分配相同的标签。经典图像分割可以通过例如k-means clustering [5]，这是矢量量化的事实上的标准方法。 k-means 聚类旨在将目标数据分配到 k 个聚类中，其中每个数据属于具有最接近均值的聚类。基于图的分割方法（GS）[6]是另一个对图像分割进行简单贪婪决策的例子。它根据特定的区域比较函数产生遵循不太粗或不太细的全局特征的分割结果。与经典方法类似，本研究中提出的方法旨在执行无监督图像分割。最近，已经提出了一些基于学习的无监督图像分割方法[7]、[8]、[9]。 MsLRR [7] 是一种高效且通用的方法，可以切换到无监督和有监督的方法。 MsLRR [7] 使用了超像素（正如我们之前的工作 [3]），这导致了边界固定为超像素的限制。 W-Net [8] 通过从输入图像中估计分割并从估计的分割中恢复输入图像来执行无监督分割。因此，相似的像素被分配给相同的标签，尽管它不估计每个片段的边界。克罗托鲁等人。 [9]提出了一种基于深度神经网络技术的无监督分割方法。虽然此方法执行二进制前景/背景分割，但我们的方法生成任意数量的片段。 [10] 中介绍了关于图像分割的深度学习技术的全面调查。本节的其余部分介绍了用户输入的图像分割、基于 CNN 的弱监督图像分割以及无监督深度学习的方法。使用用户输入进行图像分割：图切割是图像分割的一种常用方法，它通过最小化图像像素对应于节点的图的成本来工作。该算法可以应用于具有某些用户输入的图像分割，例如涂鸦 [11] 和边界框 [12]。图像抠图通常也用于用户输入的图像分割[13]、[14]。图像抠图的显着特征是像素标签的软分配，而图形切割产生硬分割，其中每个像素都属于前景或背景。提出了约束随机游走[15]，以通过更灵活的用户输入实现交互式图像分割，这允许涂鸦指定边界区域以及前景/背景种子。最近，一个与优势集簇相关的二次优化问题已经通过几种类型的用户输入得到解决：涂鸦、草率轮廓和边界框[16]。上述方法主要产生将图像像素分为前景和背景的二值映射.为了将图割应用于多标签分割问题，在[17]中提出了α-β交换和α-扩展算法。两种算法都重复处理以找到二进制标记问题的全局最小值。在 α-expansion 算法中，为标签 α 定义了一个扩展移动到标签 α 产生具有较低能量的标签。交换移动获取当前标记为 α 的像素的一些子集，并为它们分配标签 β，反之亦然，用于一对标签 α、β。 α-β 交换算法找到一个最小状态，使得任何一对标签 α、β 都没有交换移动，从而产生较低的能量标签。基于 CNN 的弱监督图像分割：基于 CNN 的语义图像分割已经获得在文献 [18]、[19]、[20]、[21] 中的重要性。由于难以获得用于图像分割的像素级注释，因此使用对象检测器 [22]、[23]、[24]、对象边界框 [25]、[26]、图像级类别标签 [27] 的弱监督学习方法]、[28]、[29]、[30] 或涂鸦 [31]、[32]、[33] 用于训练被广泛使用。大多数弱监督分割算法 [31]、[25]、[26 ]，[30]从弱标签生成一个训练目标，并使用生成的训练集更新他们的模型。因此，这些方法遵循一个迭代过程，该过程在两个步骤之间交替：（1）梯度下降，用于从生成的目标训练基于 CNN 的模型；（2）通过弱标签训练目标生成。例如，ScribbleSup [31] 使用超像素将涂鸦的语义标签传播到其他像素，以便对图像进行完整注释（步骤 1），并学习卷积神经网络对注释图像进行语义分割（步骤 2）。在 e-SVM [25] 的情况下，使用 CPMC 片段 [34] 生成来自边界框注释或像素级注释的片段提议（步骤 1），并使用生成的片段提议训练模型（步骤 2）。下田等人。 [30] 使用图像级注释估计类显着性图（步骤 1）并应用完全连接的 CRF [35]，将估计的显着性图作为一元电位（步骤 2）。这些迭代过程面临无法保证收敛的危险。带有弱标签的训练目标生成中的错误可能会强化整个算法以在不希望的方向上更新模型。因此，提出了最近的方法 [33]、[32]、[36] 来避免使用弱标签生成训练目标时的错误。在这项研究中，为了解决收敛问题，提出了一种基于 CNN 的端到端可微分割算法。无监督深度学习：无监督深度学习方法主要集中在使用生成模型[37]、[38]、[39]学习高级特征表示。这些研究背后的想法与神经科学中存在代表特定语义概念的神经元的猜想密切相关。相比之下，本研究研究了深度学习在图像分割中的应用以及用卷积层提取的高级特征的重要性。众所周知，深度 CNN 滤波器对于纹理识别和分割是有效的 [40]、[41]。值得注意的是，在所提出的方法中使用的卷积滤波器在标准反向传播算法中是可训练的，尽管没有地面实况标签。因此，本研究与最近对深度嵌入式聚类（DEC）的研究有关[42]。 DEC算法通过最小化具有辅助目标分布的软分配数据点之间的KL散度损失来迭代地细化聚类，而所提出的方法只是基于估计的聚类最小化softmaxloss。类似的方法，如最大边缘聚类[43]和判别聚类[44]、[45]已经被提出用于半监督学习框架；然而，所提出的方法专注于完全无监督的图像分割。

三、方法

图像分割解决的问题描述如下。为简单起见，让 {} 表示 {}Nn=1，除非另有说明，其中 N 表示输入彩色图像 I = {vn ∈ R3} 中的像素数。

令 f : R3 → Rp 为特征提取函数，{xn ∈ Rp} 为图像像素的一组 p 维特征向量。
簇标签 {cn ∈ Z} 通过 cn = g(xn) 分配给所有像素，其中 g : Rp → Z 表示映射函数。
这里，g 可以是一个分配函数，它返回最接近 xn 的簇质心的标签。
对于 f 和 g 固定的情况，使用上述等式获得 {cn}。
相反，如果 f 和 g 是可训练的，而 {cn} 是指定的（固定的），那么上述方程可以被视为标准的监督分类问题。

如果 f 和 g 是可微的，则在这种情况下 f 和 g 的参数可以通过梯度下降来优化。
然而，在本研究中，在以完全无监督的方式训练 f 和 g 的参数时预测未知 {cn}。
为了将其付诸实践，解决了以下两个子问题：
预测具有固定 f 和 g 的最优 {cn} 以及训练具有固定 {cn} 的 f 和 g 的参数。

值得注意的是，在 Sec 中介绍的三个标准.我不兼容，从不完全满足。
使用经典方法解决此问题的一种可能解决方案是：
将 k-means 聚类应用于 (a) 的 {xn}，使用 (b) 的质心距离执行图切割算法 [17]，并在 k-means 中确定 k对 © 使用非参数方法进行聚类。
但是，这些经典方法仅适用于固定 {xn}，因此解决方案可能不是最优的。
因此，提出了一种基于 CNN 的算法来解决该问题。 {xn} 和 {cn} 的特征提取函数以满足所有上述标准的方式联合优化。
为了实现 CNN 的端到端学习，提出了一种使用可微函数预测 {cn} 的迭代方法。提出了一种 CNN 结构，如图 1 所示，以及满足三个秒中描述的标准。
I. 考虑标准 (a) 和 © 的拟议 CNN 架构的概念在第 III-A 节中有详细说明。
用于求解标准 (a) 和 (b) 的损失函数的概念在第 III-B 节中介绍。
使用反向传播训练 CNN 的细节在第 2 节中描述。 III-C。
任意 n 的最大值（n = 1， . . . ， N）。因此，这种轴内归一化过程使所提出的系统倾向于较大的q

A.网络结构

在这里插入图片描述

B. Loss function

提出的损失函数 L 由对特征相似性的约束和对空间连续性的约束组成，表示如下

在这里插入图片描述

其中μ表示平衡两个约束的权重。虽然所提出的方法是一种完全无监督的学习方法，但也研究了使用涂鸦作为用户输入的方法。
在使用涂鸦信息的分割的情况下，损失函数（1）只需使用另一个权重ν进行修改，如下所示：
在这里插入图片描述

上述功能的每个组件在下面各自的部分中进行了描述。

1）对特征相似性的约束：

如第 2 节所述。 III-A1，通过将 argmax 函数应用于归一化响应图 {rn′} 来获得簇标签 {cn}。集群标签被进一步用作伪目标。在所提出的方法中，计算 {rn′ } 和 {cn} 之间的以下交叉熵损失作为对特征相似性的约束：
在这里插入图片描述

这个损失函数背后的目标是增强相似特征的相似性。一旦图像像素根据它们的特征进行聚类，同一簇内的特征向量应该彼此相似，而来自不同簇的特征向量应该彼此不同。通过最小化这个损失函数，网络权重被更新，以促进提取更有效的聚类特征。

2）空间连续性的约束：

图像像素聚类的基本概念是将相似的像素分组，如第 2 节所示。 III-A1。然而，在图像分割中，图像像素簇最好在空间上是连续的。引入了一个额外的约束，有利于集群标签与相邻像素的标签相同。以与 [47] 类似的方式，我们将响应图 {rn'} 的水平和垂直差异的 L1 范数视为空间约束。我们可以通过一个差分运算符。更具体地说，空间连续性损失 Lcon 定义如下：
在这里插入图片描述

其中 W 和 H 表示输入图像的宽度和高度，而 r' 表示 ξ,η 响应映射 {rn' } 中 (ξ,η) 处的像素值。通l过应用空间连续性损失 Lcon，由于标签数量过多可以抑制复杂的图案或纹理。

3）作为用户输入的涂鸦约束：

具有涂鸦信息的图像分割技术已被广泛研究[15]，[31]，[32]，[33]。在所提出的方法中，作为部分交叉熵的 scribble loss Lscr 被引入如下：
在这里插入图片描述

其中如果第n个像素是涂鸦像素un = 1，否则为0，sn表示每个像素的涂鸦标签。

C.通过反向传播学习网络

在这里插入图片描述

在本节中，描述了训练网络进行无监督图像分割的方法。输入目标图像后，将解决以下两个子问题：具有固定网络参数的聚类标签的预测和具有（固定）预测聚类标签的网络参数的训练。前者对应于网络的前向过程，然后是第 1 节中描述的建议架构。 III-A。后者对应于基于梯度下降的网络的反向过程。随后，我们计算并反向传播第 1 节中描述的损失 L。 III-B更新卷积滤波器的参数{Wm}Mm=1以及分类器Wc的参数。在这项研究中，使用具有动量的随机梯度下降来更新参数。参数使用 Xavier 初始化 [48] 进行初始化，它从根据输入和输出层大小归一化的均匀分布中采样值。
这个前向-后向过程迭代 T 次以获得聚类标签 {cn} 的最终预测。算法 1 显示了所提出的伪代码无监督图像分割算法。
由于这个迭代过程需要一点计算时间，我们进一步介绍了所提出的方法与一个或多个参考图像的使用。如果目标图像与参考图像有些相似，则可以重用使用这些图像作为预处理训练的固定网络权重。使用参考图像的有效性在 Sec 中进行了研究。 IV-C.如图1所示，所提出的CNN网络由基本功能组成。所提出的 CNN 最独特的部分是在最终卷积层和 argmax 分类层之间存在批量归一化层。与目标标签固定的监督学习场景不同，为了获得合理的标签 {cn}，必须对轴上的响应进行批量归一化（参见第 III-A2 节）。此外，与监督学习相比，{cn} 的多个解决方案具有不同的网络参数，可以实现接近零损失。学习率的值控制了参数更新和聚类之间的平衡，这导致了{cn}的不同解决方案。我们将学习率设置为 0.1，动量为 0.9。

四、实验

如第二节所述。
I，如第 2 节所述，提出了空间连续性损失。 III-B2 作为我们之前研究中使用的超像素提取的替代方案 [3]。通过将其与 [3] 以及 Sec. 中讨论的其他经典方法进行比较来评估连续性损失的有效性。 IV-A。此外，在 Sec 中使用带有涂鸦输入的建议方法。 IV-B 和 Sec 中的参考图像。证明了IV-C。对于所有实验，卷积层数 M 设置为 3 且 p = q = 100。对于损失函数，为每个实验设置了不同的 μ：对于第 IV-A 和第 IV-C 部分的 PASCAL VOC 2012 和 BSD500，μ = 5，对于第 IV-C 部分的 iCoseg 和 BBC Earth，μ = 50，μ = 100对于第 IV-C 部分中的 pixabay，对于第 IV-B 部分，μ = 1。所有实验的结果均通过联合平均交集（mIOU）进行评估。在这里，mIOU 被计算为ground truth (GT) 中每个片段的平均 IOU，以及与 GT 片段具有最大 IOU 的估计片段。值得注意的是，PASCAL VOC 2012 数据集 [49] 中的对象类别标签被忽略，每个片段以及背景区域都被视为单独的片段。

连续性损失的影响
评估了连续性损失对 PASCAL VOC 2012 分割基准 [49] 和伯克利分割数据集和基准 (BSD500) [51] 的验证数据集的影响。
图 2 显示了改变 μ 时的分割结果示例。
在图 2f 的情况下，图像被成功分割为天空、海洋、岩石、牛和海滩区域。然而，图像在 μ = 1 时被更详细地分割；例如，海滩被进一步划分为沙地和草地。据推断，最佳 μ 的变化取决于所需分割结果中的详细程度。

表 II 显示了关于 PASCAL VOC 2012 上 μ 和 ν 变化的 mIOU 分数变化数据集[49]。

结果表明，当应用于无监督分割时，μ = 5 是最好的，而 ν = 0.5 是使用用户输入进行分割时的最佳选择。它还表明，所提出的方法对 ν 比 μ 更敏感。
表 I 显示了两个基准数据集上无监督图像分割的比较结果。 k 均值聚类和基于图的分割方法 (GS) [6] 被选为比较方法。在 GS 的情况下，在计算边缘权重之前应用 σ = 1 的高斯滤波器来稍微平滑输入图像，以补偿数字化伪影。 GS 需要一个阈值参数来确定段的粒度。阈值参数有效地设置了观察范围，因为较大的值会导致对较大组件的偏好。对于 k 均值聚类，每个像素表示使用 5 × 5 窗口中 RGB 值的串联。连接的组件从 k 均值聚类和所提出的方法生成的每个集群中提取为段。 k 均值聚类的最佳 k 和 GS 的阈值参数 τ 分别从 {2, 5, 8, 11, 14, 17, 20} 和 {100, 500, 1000, 1500, 2000} 实验确定。为了与前沿方法进行比较，我们采用了不变信息聚类 (IIC) [50]。我们将输出集群和迭代的数量分别更改为 {2,5,8,11,14,17,20} 和 {10,20,30,40,50}，并显示其中最好的结果。至于其他参数，我们使用了官方 IIC 代码 2 中用于 Microsoft COCO 数据集的默认值。

PASCAL VOC 2012 和 BSD500 上的无监督图像分割结果示例分别如图 3 和图 4 所示。如图所示，与我们之前的工作[3]相比，使用所提出的方法，线段的边界线更平滑、更突出。这种改进还导致性能增强，这可以从表 I 中得到证实。在 BSD500 超像素基准测试中，每个图像都有几组地面实况分割。
图 4b 和 4c 显示了示例测试图像的两个不同的地面实况片段。如图所示，ground truth 段被标记为没有特定的对象类。为了评估，将 mIOU 计算的三组定义为：“全部”使用所有地面实况文件，“精细”使用每个图像包含最多片段的地面实况文件，“粗略”使用包含最大片段的地面实况文件包含最少数量的段。在这种情况下，“fine”使用图 4b，“coarse”使用图 4c，“all”使用所有地面实况文件，包括用于 mIOU 计算的这两个文件。
根据表一，所提出的方法在 PASCAL VOC 2012 和 BSD500 数据集上取得了最好或第二好的成绩。所提出的方法在“BSD500 all”和“BSD500 fine”上优于 GS，因为小段的 IOU 值由于地面实况集中的几个小段而占主导地位。这实际上并没有表明所提出的方法产生的准确片段少于 GS。
为了证实这一事实，还展示了图 5 中 IOU 阈值为 0.2、0.3、0.4、0.5、0.6 和 0.7 的“BSD500 all”中的精确召回曲线。对于本次评估，我们首先根据各个估计段和地面真值段之间的最大 IOU 值对所有估计段进行排序。

图 5 中的精确召回曲线是通过当估计段和地面真值段之间的最大 IOU 超过阈值时将估计段计为真阳性而绘制的。当阈值增加时，真阳性片段的数量减少，这导致图 5 中的图中出现不同的平均精度分数。所提出的具有连续性损失的方法获得了最佳的平均精度分数，而我们之前的具有超像素的方法 [3] 在图 5 中的所有情况下均获得了第二好的平均精度分数。确认所提出方法的每个元素的有效性，使用 PASCAL VOC 2012 和 BSD500 进行消融研究。
表 III 显示了关于 Lcon 的存在和不存在以及响应图的批量标准化的结果。实验结果表明，批量标准化过程始终如一地显着提高了所有数据集的性能。尽管单独使用 Lcon 的效果是微不足道的，但当与批量标准化一起使用时，它可以提供可靠的改进。这表明了 Sec 中引入的三个标准的重要性。

IB以涂鸦作为用户输入的
分割在PASCAL VOC 2012分割基准[49]的验证数据集上测试了使用用户输入的图像分割所提出方法的效果。在这个实验中，我们在 (2) 中让 ν = 0.5。涂鸦信息用于[31]中给出的测试图像作为用户输入。为了比较，使用了图割[17]、图割α-扩展[17]、图割α-β交换[17]和正则化损失[33]。在图形切割中，高斯混合模型（GMM）用于对图像的前景和背景进行建模。由 GMM 建模的像素分布构建图。此时，涂鸦的像素被固定在它们的涂鸦标签上，它们是前景或背景。在生成的图中，节点被定义为一个像素，而连接节点的边的权重由成为前景的概率定义或背景。此后，该图通过能量最小化分为两组：前景和景。 vanilla graph cut 是一种用于分割前景和背景的算法，它不支持多标签情况。因此，在本研究中，多次进行图形切割，每次将每个涂鸦视为前景，随后将所有提取的片段用于计算mIOU。为了比较性能，测试了 αexpansion 和 α-β swap（在第二节中介绍）以及正则化损失 [33]。正则化损失 [33] 是一种使用训练数据集和附加涂鸦信息的弱监督分割方法。为了统一实验条件，PASCAL VOC 2012 验证数据集中的一张图像用于带有涂鸦信息的网络训练。将训练完成后的图像在最后一次迭代中的输出作为图像的分割结果。之后，初始化网络权重，然后对下一张图像重复该过程。对 PASCAL VOC 2012 验证数据集中的所有测试图像单独重复此过程。此过程被定义为“Regularized loss 1-image training”。我们为“Regularized loss 1-image training”测试了两种基础架构：DeepLab-largeFOV 和 DeepLab-ResNet-101。示例分割结果如图 6 所示。观察到，所提出的方法比基于图的方法更稳定方法。通过“Regularized loss 1-image training”检测到相对粗糙的物体片段，而所提出方法的分割区域的边界更准确。表 IV 中的定量评估表明，所提出的方法取得了最好的 mIOU 分数。除了使用 DeepLab-ResNet-101 架构优于“Regularized loss 1- image training”之外，所提出的方法在三个方面都有效。首先，所提出的方法使用一个小型网络，其中参数数量为 1，比 DeepLab-ResNet-101 少 000 倍。由于架构较小，所提出的方法的收敛速度比使用 DeepLab-ResNet-101 架构的“Regularized loss 1-image training”快 20 倍。最后，所提出的方法用随机权重初始化网络，因此不需要预先训练的权重。相反，“Regularized loss 1-image training”需要在 ImageNet 数据集 3 上进行预训练的权重进行初始化。值得注意的是，我们发现在我们的实验中，使用 DeepLab-ResNet-101 和 DeepLab-largeFOV 架构的“Regularized loss 1-image training”都未能训练来自随机状态的权重。

使用参考图像进行无监督分割
监督学习通常从训练数据中学习并使用测试数据评估性能。因此，网络可以通过处理具有（固定）学习权重的测试图像来获得分割结果。相比之下，由于所提出的方法是完全无监督的学习，每次输入测试图像时都需要学习网络权重以获得分割结果。此外，对参考图像进行了无监督分割实验。对于未见过的测试图像，评估了在几个图像上训练的固定权重网络的有效性作为参考。实验采用了 BSD500 和 iCoseg [54] 数据集。所提出的方法在 BSD500 中用四个图像进行了训练，如图 7a 所示。在训练阶段，网络为每个参考图像更新一次。训练后，网络权重被固定，图 7b 顶行中显示的其他三张图像被分割。参考图像和测试图像是从自然类别的不同场景中任意选择的。分割结果显示在图 7b 的底部两行中。图 7b 中的短语“从头开始”表示图像是用所提出的方法进行分割，其中从头开始为每个测试图像训练网络的权重。如图 7b 所示，“w/reference images”的分割结果比“from beginning”更详细。这是因为在训练目标图像时，“从头开始”在连续性损失的影响下整合聚类。根据图 7b，与“从头开始”相比，“w/reference images”显示出可接受的分割性能。 “w/reference images”方法对每张图像的分割只需要不到0.02s，而“从头开始”方法在GeForce GTX TITAN X的GPU计算下大约需要20s才能得到分割结果。在 iCoseg（ID：12、17、36、49）中提出的四组方法也进行了训练。由于 iCoseg 不区分训练数据和测试数据，因此从该组中随机选择了两张图像进行测试。此外，所提出的方法在不包括采样测试图像的组中的图像上进行了训练。分割结果如图 8 所示。因此，可以得出结论，只要图像与参考图像有些相似（例如，当它们属于同一类别）。我们还进行了一项实验，使用单个参考图像分割图像。图 9 显示了测试和参考图像的分割结果。即使测试图像的分割结果不如参考图像的分割结果合适，也可以获得足够的分割结果。在这两种情况下，我们可以看到不同的质量水平：左侧情况下的鱼被成功分配了相同的标签，而右侧情况下的橙子则被区分。这意味着颜色有些相似的相似物体被分配了相同的标签。在迄今为止的实验中，发现所提出的方法可以从多个参考图像中训练出来，并且对相似不同的图像有效。因此，引入了另一个视频应用程序。视频数据通常包含以时间序列连接的信息。因此，视频分割可以通过使用所提出的方法仅训练所有帧的一部分来完成。图 10 显示了在所提出的方法中输入视频数据时的分割结果示例。所提出的方法仅使用图 10 中相应行中最左边的图像训练网络。它观察到从其他图像获得的大部分片段都成功匹配到最左侧图像中的相同片段。因此，证明即使没有地面实况的视频数据也可以使用所提出的方法有效地分割，仅使用单帧作为参考。该结果表明，所提出的针对图像分割的无监督学习的方法可以扩展到视频分割的无监督学习。通过以视频的第一帧为参考，对其他帧进行分割，可以加速分割任务。此外，还可以通过将处理后的图像堆叠为额外的参考图像来改进完整目标视频的分割。

五、结论

本研究提出了一种新颖的 CNN 架构，以及它的无监督过程，该过程能够以无监督的方式进行图像分割。
所提出的 CNN 架构由用于特征提取的卷积滤波器和用于特征聚类的可微处理组成，从而实现端到端的网络训练。
所提出的 CNN 将聚类标签联合分配给图像像素并更新卷积滤波器，以使用所提出的损失对卷积层的归一化响应的反向传播来实现更好的聚类分离。
此外，还介绍了基于所提出的分割方法的两个应用：以涂鸦作为用户输入的分割和参考图像的利用。

在 PASCAL VOC 2012 分割基准数据集 [49] 和 BSD500 [51] 上的实验结果证明了所提出的方法对于完全无监督分割的有效性。所提出的方法优于经典的无监督图像分割方法，如k-means聚类和基于图的分割方法，验证了特征学习的重要性。此外，通过在 PASCAL VOC 2012、BSD500 和 iCoseg [54] 数据集上的额外实验结果验证了所提出的使用用户输入和利用参考图像进行图像分割的方法的有效性。展示了该方法在高效视频分割系统中的潜在应用。

新人如附件

关注

28
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】Unsupervised Learning of Image Segmentation Based on Differentiable Feature Clustering

本研究调查了卷积神经网络 (CNN) 在无监督图像分割中的应用。与监督图像分割类似，所提出的 CNN 将标签分配给表示像素所属的簇的像素。然而，在无监督图像分割中，事先没有指定训练图像或像素的地面真实标签。因此，一旦输入目标图像，像素标签和特征表示就会联合优化，并通过梯度下降更新它们的参数。在所提出的方法中，标签预测和网络参数学习交替迭代以满足以下标准：（a）相似特征的像素应分配相同的标签，（b）空间连续的像素应分配相同的标签，以及（c ) 唯一标签的数量应该很大。
复制链接

扫一扫