Weakly Supervised Object Localization with Multi-fold Multiple Instance Learning
基于多层多实例学习的弱监督物体定位
摘要——在计算及视觉领域,物体的分类定位是一个具有挑战性的问题。标准的监督训练需要物体实例的bounding box标注。弱监督学习避免了这一耗时的标注过程。在这样的情况下,监督信息被限制在了二态标注中能够表明图片中物体实例是存在还是缺失。我们提出了一个多实例的学习方法,它能够迭代的训练检测器并且推断出正图片样本中物体的位置信息。我们主要的贡献是一个多层多实例的学习策略,它能够阻止训练过早地锁定在错误的物体位置。这个过程在高维表示中是特别重要的,例如fisher向量和卷积神经网络特征。我们也提出了一个窗口强化方法,这个方法能够提高定位的精度通过包含物体的先验信息。我们提出了一个具体的实验评估结果利用PASCAL VOL 2007数据集,这能够证明我们方法的有效性。
关键字:弱监督学习,物体检测
引言
物体分类定位在过去十年间取得了很大得进步,PASCAL VOC挑战赛见证了这个过程。然而,训练最新的物体检测器需要物体实例的bounding box标注,获得这样的标注需要花费很大的代价。弱监督学习方法(WSL)指的是依靠具有不完全真实信息的训练数据来训练识别模型。对于物体检测,能够表明图像中分类实例存在性的WSJ最近已经大量的研究作为去除bounding box标注的一种方法,见【4,8,12,15,17,35,37,38,40,43,45,46,47,53】。这样的方法能够潜在性的消除大量的网上的标注图片作为数据源来训练物体检测器。我们在本文第二节列出了最相关的工作。
其他的WSL例子包括训练面部识别模型或者加上图片副标题【6】和内容信息【19】。但是另一个例子是从图片水平分类标注训练语义分割模型【51】。大多数WSL方法是基于隐藏的変量模型来对缺失的信息负责。多实例学习(MIL)解决了弱监督学习在一系列例子中存在至少一个正实例的情况。更先进的结论和学习方法被用在最新的更复杂的变量结构中,例如【17,40,51】。除了弱监督训练,全监督和肉监督混合【9】,主动监督【52】以及半监督【40】训练以及无监督物体发现【11】方法已经被探索用来降低物体检测训练中需要的标签训练数据。在主动学习中,用到了bounding box标注,但是只需要图像中最有效的图像标注。而半监督学习促使未标注图像通过自动检测物体而发生改变,使用这些让物体出现变化模型变得更好。
在这篇文章中,我们利用WSL从图像层面训练物体检测器。我们跟随一个MIL方法插入训练的检测器,使用正训练图像的物体实例。根据最新的全监督检测器【13,22,50】,我们利用Fisher向量(FVs)和卷积神经网络(CNN)特征【29】提出检测窗【39】。正如本文第三节提到的,当用在MIL框架中时,高维的窗口信息使得MIL迅速收敛到低劣的局部最佳状态在初始化之后。我们的主要贡献是MIL的一个多层训练策略,能够避免急速收敛到局部最优解。我们方法的第二个新颖之处在于使用了对比的背景描述器,即物体窗口描述器和剩余图像部分描述器的不同之处。这个 线性分类器的描述器评分能够用前景和背景得分的不同来表示。在这种情况下,我们指引检测器学习前景和背景外观的不同。最后,基于物体先验知识【17】的启发,我们提出一个窗口强化方法,能够提高肉监督定位的精度通过包含独立分类的对象尺寸。
我们利用VOC 2007数据集进行了详细的评估在本文的第四节。实验结果展示出我们的多层MIL训练提高了FV和CN