https://arxiv.org/pdf/1701.08289.pdf
FDDB face detection benchmark evaluation
引言:
在物体检测上,R-CNN十分成功,跟随这个工作,我们提出一个新的脸部检测方法,扩展改进Faster R-CNN算法。我们的算法通过结合几个策略,包括特征连接,强负面挖掘(hard negative mining)和多尺度训练等来改进。
最终达到state-of-the-art 的表现
方法:
包含两个部分:RPN(Region Proposal Network)为了生成RoIs(同Faster R-CNN);和一个fast RCNN 网络来区分RoIs是物体(或背景),并调整这些区域的边界。
首先我们用WIDER FACE训练模型,并生成hard negatives。然后第二步把这些hard negatives送入训练,然后用FDDB数据集调优。最后我们应用多尺度训练和特征连接策略(feature concatenation strategy)。最后一个额外步骤,我们将检测的边界框转换为椭圆。
下面我们详细讨论这几个关键步骤
特征连接(feature concatenation)
传统RoI pooling是在最后一个特征图上提取RoI。这种方法不总是最优且可能遗漏一些重要特征,因为深层卷积层的特征输出有更广的接受域,导致成为更特征粗糙。我们为了捕获更好的RoI的细节,我们结合了多聚集层的特征图,包括低层与高层。我们合并了多个卷积层的池化结果来生成最后的池化特征。特别的,低层的卷积层都是经过ROI池化和L2正则化。然后合并,缩放,然后用1x1卷积来匹配最后的channels。结构如图:
Hard Negative Mining
将未能正确分类的样本标记为困难样本,再一次送入模型中。我们把实际值上的IoU小于 0.5 的区域视为负样本。(its itersection over union (IoU) over the ground truth region was less than 0.5), 在Hard Negative Mining 中, 我们把这些hard negative困难负样本添加到RoIs中来微调模型,并把前景和后景的比率调到1:3左右,和我们在第一步里的比率相同。
多尺度训练
输入多尺度图片训练,经验主义说明多尺度训练让模型更有鲁棒性,提高了在测试集上的表现。