【论文阅读】Importance of Self-Consistency in Active Learning for Semantic Segmentation

Golestaneh S A, Kitani K M. Importance of Self-Consistency in Active Learning for Semantic Segmentation[J]. arXiv preprint arXiv:2008.01860, 2020.

codeicon-default.png?t=M276https://github.com/isalirezag/EquAL/blob/master/FinalTraining/readme.md

摘要

自一致性可以成为用自监督来提高数据驱动模型性能的重要途径。自一致性是假设一张特定图像经过简单的图像变换(比如水平旋转)后的语义分割结果应该是一致的。换句话说就是模型的输出应该与图像的变换无关。自一致性的自我监督信号在主动学习期间特别有用,因为当只有少量标记的训练数据时,模型容易过度拟合。在本文提出的主动学习框架中,作者只是选择图片经过等变变换中不确定性最高的一部分(image patch)来进行标记。

我们在每幅图像的分割网络输出及其变换(水平翻转)之间执行像素级的自一致性,以利用丰富的自监督信息,减少网络的不确定性。这样能够找到模型最难判断的image patch。

通过对这些困难的图像块进行迭代训练,本文的实验表明,通过仅使用基准语义分割数据集(如CamVid和Cityscapes)总数据的12%,提出的主动学习方法达到了模型在所有数据上的最高性能的96%。

介绍

CNN尽管已经在各种计算机视觉任务上取得了很大的成功,但其缺点就是需要大量昂贵的标记训练样本。主动学习和弱监督学习是缓解语义分割数据需求的两种方法。本文聚焦于基于池的不确定性的主动学习方法,这也是目前最长用的一种主动学习策略。

本文使用模型输出的softmax probilities来计算熵作为人工标注的不确定性的标准。一个缺点就是如果模型初始时在少量的训练数据上过拟合的话,数据样本选择就会收到负面影响。因为过拟合的模型可能会对信息量较少的样本产生较大的不确定性而且对其他样本也很有可能会产生错误。过拟合的模型选择的样本质量较低,对这样的数据进行标注会影响模型的性能。

基于以上分析,本文提出的基于主动学习的语义分割模型,旨在提高模型以及选择样本的鲁棒性和泛化能力。做出了以下贡献:

  1. 除了使用输入图像外,本文还建议使用输入图像的等变变换来提高计算的不确定性。具体来说,在主动学习过程中,从输入图像及其等变变换版本(在本文中,我们使用水平翻转作为等变变换)计算不确定性。
  2. 本文进一步建议在每个图像的分割网络输出及其变换之间实施像素级的自一致性,以利用丰富的自监督信息,减少网络的不确定性。换句话说,给定输入图像及其等变变换,我们强制网络输出类似的像素预测。
  3. 我们通过在两个公共数据集(CamVid和Cityscapes)上进行评估,证明了我们提出的方法的有效性。

相关工作

语义分割

语义分割研究中两个众所周知的挑战是:1)获取密集的像素级标签,这既昂贵又耗时;2)当数据集具有高度不平衡的类时,实现良好的泛化和性能。

主动学习

主动学习解决了在一组未标记样本中找到最关键数据的问题,这样,如果给模型这些样本,模型将获得最高的收益。

在基于池的主动学习策略中,也就是本文使用的方法,存在一个大的未标记数据池,通常初始化是一个小的有标记数据集。在每次迭代中,模型在标记集上进行训练,然后采集函数从未标记集选择一个或多个样本(本工作中是一个样本的区域),由外部oracle标记并添加到标记集。重复此过程,直到标记数据的特定预算耗尽或达到特定模型性能。

这里采集策略就是关键了,这也有很多相关研究。信息量和代表性(informativeness and representativeness)是选择未标记样本的两个标准。信息性度量样本减少所采用模型的泛化误差的能力,并确保在下一次迭代中模型的不确定性更小,而代表性是指样本是否能够表示未标记数据集的底层结构。

本文提出的采样策略可以和已经提出的方法相结合使用。在选择过程中,本文计算图像及其相应变换的不确定性,这样就可以同时考虑这两幅图片,来提高模型泛化能力,这样选择的样本的可信度更高。此外,在模型更新阶段,除了交叉熵(CE)损失外,本文还建议使用像素级的自一致性,以减少每个样本及其变换之间分割网络输出的不确定性。

应用于语义分割的主动学习

虽然已经提出了多种用于图像分类的主动学习方法,但用于语义分割的主动学习方法却没有得到充分的研究。现有的方法完全依赖于在主动选择过程中具有最大不确定性的标记区域来更新和重新训练网络。

目前所了解到的,所有的应用于语义分割中主动学习的方法都是只依赖于标记的区域来更新模型。本文提出的方法中,添加了一个新的正则化,该正则化以自我监督的方式惩罚输入图像的模型输出与其等变变换之间的差异。具体而言,在主动选择过程中,我们使用输入及其等变变换来计算不确定性。

换句话说,在主动学习过程中,本文不仅使用标记区域来更新模型,而且还使用整个图像(标记区域和未标记区域)来增强图像及其变换之间的自一致性。最后,本文证明了提出的像素级自一致性也可以用于最后的模型再训练阶段来提高模型性能。

方法

本文描述提出的主动学习方法为用于在输入的等变变换上运用自一致性,以仅使用少量标记数据实现高性能。

本文选择未标记数据集中的小的图像块(并不是整张图像)进行标记来最大化分割模型的性能。初始的已标记数据集DL可以包含一小部分标记数据或者为空。

在每次迭代中,主动学习的目标就是选择要标记的未标记图像块,并将其添加到训练数据集DL。为了识别要标记的未标记图像块,本文使用不确定性采样。不确定性采样根据我们当前的模型选择具有高度不确定性的图像区域。具有高度不确定性的区域对应于语义分割网络难以分类的图像区域。Xi表示Du中的第i张图片,在第t次迭代中,有两个输出,分别响应原始图像和图像的转换版本(即翻转图像):

 

这里Hi表示输入xi和其等变变换的不确定性。

为了探索语义分割的结构和局部性,本文选择的是一个区域而不是整张图像。特别的,本文选择使用固定大小的矩形区域。就是将一张图片分成M个矩形区域大小,然后分别计算相应的pixel-wise熵值,然后再在未标记数据集中寻找具有最高熵值的的区域。

上式循环K次,K是每次迭代要选取的样本个数。

在数据标签获取时,我们使用该区域的真实值注释来模拟oracle的注释。具有标记区域的图像会加入到标记数据集中,其中未标记的区域会被作为无关标记注释掉。

对于标记数据集中的每张图片xi,都有其真实值yi。在现有的用于语义分割的主动学习方法中,网络都是通过已标记数据来最小化交叉熵达到更新。然而那些图像中未标记的区域也同样有丰富的信息可以减少网络的不确定性。所以这里提出了同时利用标记和未标记区域来提高网络的自一致性。

在每次迭代获取未标记数据之后,语义分割网络将会按以下公式再训练:

结果

在CamVid and Cityscapes两个数据集上进行测试。

在实验中,对于所采用的的方法,使用相同的语义分割(网络都是Resnet50+FCN)。为了分析每种主动学习方法的真实潜力,对于所有实验,在主动样本选择过程,使用随机权重初始化分割网络。主动学习过程结束后,再使用主干网络Resnet50对数据集DL进行再训练,这里的主干网络使用在ILSVRC 1000类分类任务中预先训练的模型的权重进行初始化。

观察可知对于低预算规模,在这两个数据集中,所有基线都存在冷启动问题。相比之下,本文的方法在低区域数据中获得了显著更好的性能,作者认为这是由于更好的泛化。此外,这里还证明了在CE损失的基础上使用自一致性损失可以使一致性获得更好的性能。

为了测量标记数据的多样性,对于Cityscapes中12%的预算,进一步计算最终标记集中数据的类别分布熵;与entropy基线(2.335)相比,本文的模型实现了更高的熵(2.376),这意味着所选样本更具多样性。

表3提供了本文的模型和各种基线之间的每类IoU比较,其中预算固定为12%。

为了研究不同等变变换的效果,在表2中,研究了在使用CamVid时,在主动学习过程中采用五种不同等变变换的效果。平动和水平翻转是提高性能的唯一两种方式,这并不奇怪。作者认为,这种行为是因为诸如旋转或垂直翻转之类的变换会创建具有数据集中不存在的条件的图像。

结论

本文提出了一种有效的语义分割主动学习方法。除了使用输入图像外,还建议使用输入图像的等变变换来改善主动学习过程中的计算不确定性。本文还提出了一种像素级的自一致性损失算法,该算法利用了自监督信息,并对输入图像与其变换之间的模型预测不一致性进行了正则化。我们提出的方法产生了更稳健的主动样本选择以及更好的分割性能。具体来说,该方法实现了仅使用CamVid和Cityscapes数据集上12%的标记数据,即可实现96%的最大网络性能。最后,通过使用我们提出的像素级自一致性,我们将分割性能提高了2-9%。

作为未来的工作,作者强调了设计一种优化停止方法的可能性,这种方法可以帮助加速主动样本选择过程,这样主动学习算法就不需要完全迭代通过未标记集来选择最不确定的样本。此外,如果社区为更多的数据集提供人类注释成本的基本事实信息,那么开发成本估算和成本效益高的方法以进一步降低不同区域的标记成本将是一个重要的方向。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值