项目主页:https://www.cs.cmu.edu/~peiyunh/tiny/
Github主页: https://github.com/peiyunh/tiny
为了便于和论文对照,这里按照论文顺序进行分析。
Abstract
小目标检测依然是检测领域的一个难题,原因大概有3个方面:目标本身尺度变化、图像分辨率以及环境因素。虽然很多方法都可以处理多尺度目标检测,但是检测一个3pixel大小的目标和一个500pixel大小的目标还是有本质不同的。
文章针对多尺度训练了不同的检测器。为了保持效率,这些检测器所用的特征来自同一网络的不同的层级。此外,为了检测极小目标,文章充分利用了上下文信息(大的感受野),同时finetune网络的时候也充分考虑了多尺度的因素。
总之,结果爆炸。尤其是在Wider Face(小目标遮挡目标较多)上,结果超第二名一倍。
Introduction
检测小目标难,原因主要有3个方面:目标本身尺度变化;图像分辨率;环境因素。 本文为此提出了以下技术:
Multi-task modeling of scales:
——目前的多尺度检测,要么是通过金字塔图像滑窗要么是通过R-CNN这种Region Proposal。这两种套路通常都使用固定尺寸的模板。问题是,模板尺寸怎么定。小尺寸可以帮助检测小目标,大尺寸又能获得更丰富的信息。
——文章针对不同尺度(或者不同长宽比)训练了多个检测器。这样做有两个问题:每个尺度的训练数据可能不足,实际检测时要多个模型效率不高。为此,文章采用了一种multi-task模式,充分利用一个模型的不同层级的特征。
How to generalize pre-trained networks:
上图的(a)和(b)是常用的两种检测多尺度目标的检测方法。
(a) 模板固定,构建了图像金字塔。但是单个模板的性能可能较差。
(b) 图像固定,训练了金字塔模板。不同模板虽然可以很好的把握不同分辨率的信息,但是这些模板可能不能覆盖实际当中的所有目标尺度。同时,训练的时候,可能某一尺度会缺少训练样本(比如训练大尺度模板可能缺少大的人脸作为正样本)。
(c) 作者将(a