对于Fast R-CNN 难分样本挖掘(hard negative mining)的理解

在训练分类器的时候,对不同的类别,都需要一定的正样本,这个正样本的数据集来源就是,生成的proposals与某个标注数据的ground true重叠区域(IoU)大于某个阈值,这个proposal才会被作为这个类别的正样本。

在Fast R-CNN中,proposals是由Selective Search算法给出的,这些proposals里包含有“背景”,和“其他物体”,值得注意的是,这个“其他物体”不一定是我们训练的类别。

所以这就会产生一个问题,对于一副图像,我们要检测“人”,但实际图像中只有一个或是两个人。虽然我们生成了不少(1k-2k)的proposals,但这些proposals里跟人的标注数据的ground true的IoU大于某个阈值的(比如0.5),其实并不多。因为proposals不是专门为某个类别(这里的例子是“人”)而生成的。

这就会造成,proposals【IoU>=0.5】的比proposals【IoU<0.5】的少很多。而造成proposals【IoU<0.5】数量多,主要是proposals【IoU<0.1】这个子集,因为大部分的proposals并不与我们要预测的特定类别区域重叠,这样构成的数据集,正样本的数量会远远少于负样本。

负样本过多会造成,正样本大概率被预测为负样本。因此作者使用随机抽样的方式,抽取25%正样本,75%的负样本。

但为什么要设置proposals【0.1<=IoU<0.5】为负样本,而proposals【IoU<0.1】作为难样本挖掘(hard negative mining)呢?不是要拿proposals【0.1<=IoU<0.5】这些容易分错的来做难样本挖掘吗?

其实按道理应该从源码上去看作者是怎么实现的,不过由于我还没看,我先给出我一个自己的想法。

proposals【0.1<=IoU<0.5】实际上已经是作为hard negative去训练了,因为负样本的随机抽样就是从这里面抽取的。但这样的样本可能不多。

而proposals【IoU<0.1】,这些样本数量比较多,而里面可能也会有让分类器误判的样本。当我们第一轮用proposals【0.1<=IoU<0.5】和【IoU>=0.5】抽样的样本,训练出来的模型,去预测proposals【IoU<0.1】的样本,如果判断错误就加入hard negative的集合里,这样就实现了对proposals【IoU<0.1】的hard negatvie mining

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值