NeurIPS 2019语义分割相关论文综述

Neural Diffusion Distance for Image Segmentation

摘要:扩散距离是一种考虑全局数据结构的,用于测量图上节点之间距离的频谱方法。在这项工作中,我们提出了一种基于光谱近似分解的图谱扩散网络,用于计算图上的扩散距离。该网络是可微分的深度架构,由特征提取和扩散距离模块组成,用于通过端到端训练来计算图像上的扩散距离。我们设计了低分辨率内核匹配损失和高分辨率段匹配损失,以强制网络输出与人类标记的图像段一致。为了计算高分辨率扩散距离或分割蒙版,我们设计了一种基于特征注意插值的上采样策略,该特性可在训练spec-diff-net时学习。借助学习的扩散距离,我们提出了一种优于以前的分割方法的分层图像分割方法。此外,利用扩散距离设计了一个弱监督语义分割网络,并在PASCAL VOC 2012分割数据集上取得了可喜的成果。

 论文提出了一种新的深度结构——spec-diff-net来计算图像上的神经扩散距离。该网络由一个特征提取模块和一个扩散距离模块组成,该模块包括端到端可训练系统中概率转移矩阵、谱分解和扩散距离的计算。为了使谱分解的计算高效且可微,论文使用同步迭代来近似过渡矩阵的特征分解。由于神经扩散距离是在比全像分辨率低的特征网格上计算的,我们提出了一种可学习的散斑网络上采样策略,利用特征注意插值来插值扩散距离或分割映射。

图1:散斑网由特征提取模块和扩散距离模块组成,依次计算过渡矩阵、近似谱分解和扩散距离。利用HR段匹配损失和LR核匹配损失对其进行训练。

我们将神经扩散距离应用于两个分割任务。层次图像分割和弱监督语义分割。对于第一个任务,我们设计了一个基于NDD的层次聚类算法,实现了更高的分割精度。对于第二个任务,我们以NDD为指导,提出了一个使用区域特征池进行弱监督语义分割的注意模块。在PASCAL VOC 2012分词数据集[23]上,在弱监督设置下实现了最先进的语义分词结果。我们的贡献可以总结如下。首先,提出了一种新的神经扩散距离及其深层结构。其次,利用神经扩散距离,我们设计了一种新的分层聚类方法和一种弱监督语义分割方法,实现了最先进的图像分割性能。另外,虽然我们在图像上学习了NDD,但它也有可能应用于图像以外的一般数据图,在未来值得研究。

贡献:NDD基于端到端可训练的深度架构,具有学习特性和超参数。与(deep)光谱聚类相比,在测量图像像素的亲和力时,考虑全局图像结构,建立了基于NDD的分割方法。如实验所示,NDD为图像分割和弱监督语义分割提供了最新的结果。


Region Mutual Information Loss for Semantic Segmentation

摘要:语义分割是计算机视觉中的一个基本问题。实际上,它被视为按像素分类的问题,并且大多数分割模型都将按像素损失作为其优化标准。但是,逐像素损失会忽略图像中像素之间的依赖性。已经研究了几种利用像素之间的关系的方法,例如,条件随机场(CRF)和基于像素亲和力的方法。然而,这些方法通常需要额外的模型分支,大量的额外内存或更多的推理时间。在本文中,我们开发了区域互信息(RMI)损失,以更简单有效地对像素之间的依赖关系进行建模。与将像素视为独立样本的逐像素损失相反,RMI使用一个像素及其相邻像素来表示此像素。然后,对于图像中的每个像素,我们得到一个多维点,该多维点对像素之间的关系进行编码,然后将图像转换为这些高维点的多维分布。因此,预测和地面实况可以通过最大化多维分布之间的互信息(MI)来实现高阶一致性。此外,由于很难计算出MI的实际值,因此我们推导出了MI的下界,并最大化下界以最大化MI的实际值。 RMI在训练阶段仅需要一些额外的计算资源,并且在测试过程中没有任何开销。实验结果表明,RMI可以在PASCAL VOC 2012和CamVid数据集上实现性能的实质性和持续性的提高。

本文的实质是解决像素之间依赖性问题,尽管以往的一些方法也针对这一问题提出了一些解决办法,但是主要是在模块上进行优化,本文不需要其他的计算模块就可以缓解像素依赖性问题。

一个图像区域及其对应的多维点。使用相同的策略,可以将图像转换为许多高维点的多维分布,这些高维点编码像素之间的关系。

作者认为:最小化y和p之间的交叉熵就等于最小化它们的相对熵(Kullback-Leibler (KL) divergence)

(1)表明,softmax交叉熵损失是逐像素计算的。它忽略了像素之间的关系。然而,图像中像素之间存在着强烈的依赖关系,这些依赖关系承载着关于对象结构的重要信息。因此,当模型的视觉证据较弱或属于空间结构较小的对象时,经过像素损失训练的模型可能难以识别像素,模型的性能可能受到限制。

鉴于以上几点,本文提出了一种基于区域互信息损失的语义分割方法,以更简单、更有效地对像素之间的关系进行建模。工作灵感来自于区域互信息医学图像注册。RMI的思想是直观的,如图1所示,给定一个像素,如果我们使用这个像素和它的8个邻居来表示这个像素,我们得到一个9维(9-D)点。对于一个图像,我们可以得到许多9-D点,并将图像转换成这些9-D点的多维(多元)分布。每个9-D点也表示一个小的3x3个区域,像素之间的关系编码在这些9-D点中。

当得到了ground truth的两个多维分布和分割模型给出的预测后,我们的目的是最大化它们的相似性。互信息(MI)是随机变量独立性的一种自然的信息论度量。在医学图像配准领域,它也被广泛用作相似性测度。因此,与仅使用像素损失相比,通过最大化预测和地面真实之间的多维分布的MI,可以获得更高的阶一致性。然而,图像中的像素是相互依赖的,这使得图像的多维分布难以分析。这意味着计算这两个待定分布之间的MI的实际值变得不可行。所以我们得到MI的一个下界,然后我们可以最大化这个下界最大化两个分布之间的MI的实际值。

在构造预测和地面真值的多维分布之前,采用了向下采样策略。目标是减少内存消耗,因此RMI在训练期间只需要一些额外的计算资源。通过这种方式,它可以毫不费力地整合到任何现有的分割框架中,而不需要对基本模型进行任何更改。RMI在测试期间也没有额外的推理步骤。

有兴趣的可以看一下源码(公布代码应该OK的,手动狗头)

 

 

 

 

 

 

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值