昨天读了两篇论文,一篇是今年cvpr的一篇oral,R-CNN的作者,论文的重点不是提高检测速度,而是在进行更有效的训练—-如何挖掘有效的样本;另一篇是去年google提出的利用三元组进行人脸识别算法—-FaceNet。
Online Hard Example Mining
1. Introduction
hard example mining 是机器学习在训练时常见的步骤。总结起来,mining方法大概可以分为两类:一种是SVM中用到margin-based,即训练时将violate the current model’s margin 的样本认为是hard example,迭代直到收敛;另一种是在级联框架中的将false positive 认为是hard example的方法。
而在CNN中目标检测根据分类前的patch选择策略的不同,可分为两类:sliding-window和proposal-based,但是在hard example mining方面算法还不成熟,已有的方法大多是基于loss来确定是否是hard的,且一般作为实验中的trick出现,并没有形成系统方法。
2. Fast R-CNN
这一部分主要介绍了Fast R-CNN,一种proposal-based的通用物体检测方法,值得注意的是,在Fast R-CNN中,确定一个proposal是背景时也是根据IoU范围[bg_lo,0.5],这个范围的前提假设是与gt有重叠的样本是hard的可能性较大,但是作者在此指出,这样得到的结果很可能是次优的,因为在其他位置可能存在更hard的样本,所以在本文提出的OHEM算法中移除了这个阈值。