【论文笔记】(CVPR2016 Oral) Training Region-based Object Detectors with Online Hard Example Mining

转载自:http://zhangliliang.com/2016/04/13/paper-note-ohem/

Training Region-based Object Detectors with Online Hard Example Mining是CMU实验室和rbg大神合作的paper,cvpr16的oral,来源见这里:http://arxiv.org/pdf/1604.03540.pdf

其实文章的idea很简单,是将bootstrapping做成online的形式嵌入到Fast R-CNN的detection的pipeline里面,其实有点类似将SGD回传的时候,对样本进行一个重新选择(选择困难样本或者对困难样本赋予更高的权重)。

在正文开始之前,容我碎碎念一小段,读者可以跳过这一段。其实online boostrapping跟CNN结合的尝试也是蛮多的。比如将FCN跟boostrapping结合做detection的工作有DenseBoxSSD。但都是作为一个trick存在的,只写了一个小节。估计作者也是觉得很难用boostrapping作为核心idea来发paper吧。但这篇敢用bootstrapping作为核心idea并且还中了oral,自然也是有其高明之处。其中最重要的点可能会是,它把bootrapping这个trick做work了,而且是在VOC和COCO上做work,并且能够提高3个点,就显得比较solid了。相对来说,可能DenseBox和SSD相对来说没有做得很work,所以就没有那么confident了。那为何这篇文章就能够把bootrapping做solid呢?很可能是作者确实思考得比较深,用了一些别人没想到的细节(比如对困难样本做nms再选择)。将一个idea做work做solid,是一个难能可贵的能力。

回归正文,文章的核心idea是将bootstrapping,或者说是hard sample mining,直接integrate到SGD算法里面去,并且将这个修改的SGD算法叫Online Hard Example Mining(OHEM)。如下图所示,对于OHEM的一个iter,是这样做的。首先整张图片前传得到conv的featmap,然后将全图的所有的N(对于selective search算法来说,一般N=2000)个proposal都用roi pooling来提特征并且前传到fc中得到每个proposal的loss。显然,loss越大,代表这个proposal对于目前的分类器来说是hard sample,将B(比如B=128)个hard sample收集起来,并且将这些样本的loss求导成diff回传回去,来更新网络。

核心idea就是这样,另外作者提到需要注意的一点是,bbox交叠的propsoal往往比较相似,所以在选择hard sample的时候,sample与sample之间不宜IoU过大,所以作者做了一个IoU为0.7的nms。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值