首先说明一下,什么是困难负样本?说白了就是对分类器迷惑性大的样本,这类样本的实际标签是负的,但是分类器往往预测为正的。
难例挖掘是指,针对模型训练过程中的困难负样本,重新训练它们。
在目标检测中我们会事先标记好ground_truth,接下来在图片中随机提取一系列sample,与ground_truth重叠率IoU超过一定阈值的(比如0.5),大于则认为它是positive sample,否则为negative sample,(注意:这里的positive sample中也会包含有负样本(即,假阳),而这里的negative sample组成的集合就是之后说的负样本集合)。
考虑到实际负样本数>>正样本数,我们为了避免network的预测值少数服从多数而向负样本靠拢,取正样本数:负样本数大约为1:3,显而易见,用来训练网络的负样本为提取的负样本的子集,那么,我们当然选择负样本中容易被分错类的困难负样本来进行网络训练啰。
然后使用这个样本集合去训练我们的网络,再用训练好的网络去预测,选择其中得分最高(得分越高,越容易被当成正例)的前k个negative sample,也就是k个hard negative sample。再将这k个加入到负样本集中,重新训练网络,循环往复,然后就会发现网络的分类性能更好了。
参考链接:
https://blog.csdn.net/qq_33289694/article/details/103176214
https://www.jianshu.com/p/159d0e78a614