《Constrained-CNN Losses for Weakly Supervised Segmentation》论文笔记

摘要

基于部分图片标签或者图片标记的弱监督学习,在CNN分割领域引起了广泛的关注,因为它可以减轻完全和繁琐的像素标注的需要。在网络输出中,利用高阶(全局)不平等约束(例如,去约束约束目标域的大小)可以减轻无标签的数据,从而指导运用了特殊领域知识的训练过程。不平等的约束是非常灵活的,因为它们不需要假设精准的先验知识。然而,被约束的拉格朗日对偶优化,在深度网络中被避免大量使用,主要是因为计算机的可追踪性。据我们所知,在弱监督分割,Pathak et al的方法是唯一的前期方法,处理带有线性约束的深度CNNs。它使用约束从弱标签中合成全标签训练掩码(建议???),模仿全监督和促进相同优化。
我们提出了一个不同的惩罚方法,这个方法直接在损失函数中利用不平等约束,避免了昂贵的拉格朗日对偶迭代和建议生成。从被约束的优化来看,我们简单的基于惩罚的方法不是最佳的,因为对约束满足没有保证。然而,惊喜的是,相对于Pathak et al提出的基于拉格朗日的约束,本文提出的方法产生了更好的结果,因为减少了训练的计算需求。通过注解一小部分的像素,提出的方法在分割性能上,可以达到在三个分割任务中和全监督一样的水平。然而我们的实验关注基本的线性约束,例如目标域大小和图片标记,我们的框架可以很简单的拓展到其他的非线性约束上,例如不变的形状时刻和其他区域统计。因此,在医学图像的语义分割中,它有可能缩小弱监督学习和完全监督学习之间的差距。我们的代码是公开的。

1 Introduction

近年来,在计算机视觉和医学图像领域中,深度卷积神经网络(CNNs)被应用于语义分割问题,在全监督的的情况下,性能得到了突破。在语义分割中,全监督需要进行费力的像素/体素标注,这可能在许多应用程序中都不可用,在处理体积数据时更是如此。而且,像素/体素级别的标注,使得将深度分割网络用于新的目标分类或者目标领域,成为一个严峻的阻碍。

为了减少像素/体素级别的标注的负担,部分或不确定标签形式的弱监管,如边界框、点、涂鸦或图像标签,吸引了大量的研究关注。将先验知识以无监督损失项的形式强加于网络输出是机器学习中一种成熟的方法。这些先验可以看作是利用未标记的数据、嵌入特定领域知识的正则化术语。例如,最近的研究表明直接正则化损失,例如,密集条件随机场(CRF)或成对聚类,可以在弱监督分割中产生突出的效果,在自然图像分割中达到几乎全监督的效果。令人惊讶的是,这种原则性的直接损失方法在弱监督分割中并不常见。事实上,现有的大多数技术都合成了完全标记的训练掩模(建议)从现有的部分标签,模仿全面监督。通常,这种基于提议的技术需要迭代两个步骤:CNN学习和提议生成,它们由密集的CRFs和快速的平均场推断[19]提供便利,这些现在实际上是语义分割算法中成对正则化的选择。

我们这里的目的是将网络输出的高阶(全局)不等式约束直接嵌入到损失函数中,以指导学习。例如,假设我们对目标区域的大小(或体积)有一定的先验知识,例如size()上下界,这是医学图像分割中的一个常见场景。
在这里插入图片描述
与[22,23,24]不同,公式(1)中的形式的不等式约束是非常容易实现的,因为它们没有假定目标大小的精确知识。它们可以看作是(1)中不等式约束的特殊情况。例如,一个这样形式的在这里插入图片描述 限制约束,强制指定目标区域不在图像中。在这里插入图片描述 强调了区域的存在。

尽管形式(1)的约束相对于网络输出是线性的(因此是凸的),但由于CNNs的非凸性,约束问题(1)非常具有挑战性。一种可能是最小化相应的拉格朗日对偶。然而,正如[1,25]中所指出的,这对于包含数百万个参数的语义分割网络来说是难以计算的;我们必须在每个双迭代中优化CNN。事实上,尽管在深度学习时代之前,拉格朗日方法就已经被应用到神经网络中,但在深度网络中,约束优化在很大程度上被避免了。这些约束优化技术在求解大型线性方程组时,不适用于深度神经网络。基于这些约束技术的数值求解器必须在深度网络[25]的情况下处理非常大的维数矩阵。

据我们所知,Pathak等人的[1]方法是目前唯一一种解决深度弱监督CNN分割中不等式约束的方法。它利用约束条件从可用的局部标签中综合全标记的训练掩码(建议),模仿完全监督,避免了在最小化损失函数时对约束条件进行棘手的双重优化。[1]的主要思想是通过潜在分布对建议进行建模。然后,将KL散度最小化,使CNN的softmax输出尽可能接近潜在分布。因此,它们对潜在分布施加约束,而不是对网络输出施加约束,从而促进了拉格朗日对偶优化。这种方法将网络参数的随机梯度下降学习与约束优化解耦:[1]的作者在优化W.R.T潜在分布和优化W.R.T网络参数的标准随机梯度下降之间交替进行,前者对应于受约束2的提案生成。

我们建议引入一个可分项,它强制不等式约束(1)直接在损失函数中,避免了昂贵的拉格朗日对偶迭代和方案生成。从约束优化的角度来看,我们的简单方法并不是最优的,因为不能保证满足约束。然而,令人惊讶的是,在[1]中,它比基于拉格朗日约束的CNNs产生了更好的结果,同时减少了对训练的计算需求。在心脏图像分割的背景下,我们使用了一小部分完整的ground-truth标签(0:1%),达到了接近完全监督的性能。我们的框架可以很容易地扩展到非线性不等式约束,如不变形状矩[2]或其他区域统计量[3]。因此,在医学图像的语义分割中,有很大可能缩小弱监督学习和完全监督学习之间的差距。我们的代码是公开的。

2 Related work

2.1 弱监督用于语义图像分割

训练带有部分和/或不确定注释的分割模型是一个具有挑战性的问题。由于提供关于图像中存在或不存在对象的全局图像级信息相对容易,许多弱监督方法使用图像标记学习分割模型。例如,在[31]中,从图像级关键字学习概率潜在语义分析(PLSA)模型。这个模型后来被用作马氏随机场(MRF)的一元势来捕捉邻域之间的空间二维关系。此外,由于经典的交互式分割方法(如非常流行的GrabCut[33])的广泛使用,边界框作为弱注释也变得非常流行。该方法学习两种高斯混合模型(GMM)对边界框定义的前景和背景区域进行建模。为了分割图像,图像的外观和平滑度被编码在一个二进制MRF中,由于能量是子模块的,因此可以通过图形切割进行精确的推理。另一种流行的弱监督形式是使用涂鸦,它可能由注释器交互执行,以纠正分割结果。

GrabCut是在深度学习时代之前大量使用弱监督的交互式分割作品中的一个显著例子。最近,在计算机视觉社区中,人们对利用弱注释来训练用于彩色图像分割的深度CNNs产生了浓厚的兴趣,例如,使用图像标记、边界框、涂鸦或点。这些弱监督语义分割技术大多通过从弱标签生成完整的训练掩码(分割建议)来模拟完全监督。这些提议可以被看作是训练CNN的ground-truth。一般来说,这些技术遵循一个迭代过程,交替进行两个步骤:(1)从提案中训练CNN的标准随机梯度下降法;(2)基于规范的标准分割,给出了建议。第二步通常使用标准优化器,比如均值域推断或图切分。特别是,Krahenbuhl和Koltun密集的CRF规范,通过快速并行平均场推断,在语义分割中已变得非常流行,不管是在完全还是弱监督设置中。这源于DeepLab的巨大成功,它推广了密集CRF和均值场推理作为后处理步骤在完全监督的CNN分割上下文中使用。

这些建议策略的一个重要缺点是,它们很容易在方法中出现错误,而这些错误可能会在这样的自学计划[41]中加强,从而破坏收敛性的保证。最近的方法[15,10]将标准正则化器(如密集CRF或成对图聚类)直接集成到损失函数中,避免了额外的推理步骤或生成建议。这种直接正则化损失为弱监督颜色分割提供了最先进的性能,达到了近乎完全监督的精度。虽然这些方法在训练过程中使用像素之间的成对一致性,但是它们没有像(1)那样显式地施加全局约束。

2.2 弱监督用于医学图像分割

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值