论文地址:http://papers.nips.cc/paper/5207-deep-neural-networks-for-object-detection.pdf
1.简述
文章发表于2013年,在当时cnn对目标边界框的定位表现还不是很好,当时对目标检测的主流算法之一是the deformable part-based model,这种方法由在star model里一系列分别的训练部分组成,它由两层模型组成,第一层为划分组件,第二部分为星形模型。这种算法的弱点为模型组件是基于人工设计的hog(histogram of Gradients ),而且组件的结构基于运动学动机。这种方法称为组件模型,用于检测的组件模型是基于像primitives , focus on shape , use Gabor filters ,larger HOG filters 这种分割方式,这些方法存在训练比较困难,需要对所学习的程序进行特殊设计以及Inference time需要结合Bottom-up 和 Top-down过程。
作者在本文提出了用DNN来做目标检测(目标检测 = 目标识别 +目标定位),把目标检测当做回归的问题,即回归目标窗口Bounding Box的位置。主要解决的问题是用有限的计算资源,在一张图片上寻找大量的多尺度的潜在目标实例。
2.算法思想
本文给出一个能够在给定图像上预测多目标的bounding box的方式,通过基于DNN的回归输出目标bounding box的二进制掩码,过程如图一所示。
为了进一步精细定位目标,还需要调整bounding box,本文也在整张图片上生成多个mask,以及在切割的大子图上生成mask,然后从这些mask进行目标框提取。
说白了,就是对特征图二进制掩码进行回归,有目标的框标为1,目标框外标为0。一次DNN回归,可以生成一张图片上多个目标的掩码。为了提升定位精度,还在一系列图像子窗口上进行DNN回归。