【ECCV2018】Unsupervised Hard Example Mining from Videos for Object Detection

最新推荐文章于 2023-01-29 16:56:50 发布

木盏

最新推荐文章于 2023-01-29 16:56:50 发布

阅读量803

点赞数 8

分类专栏： Computer Vision AI数学 paper 文章标签： object detection hard example mining eccv cvpr data augmentation

本文链接：https://blog.csdn.net/leviopku/article/details/99564927

版权

Computer Vision 同时被 3 个专栏收录

75 篇文章 79 订阅

订阅专栏

AI数学

67 篇文章 42 订阅

订阅专栏

paper

31 篇文章 6 订阅

订阅专栏

这篇文章是ECCV2018里唯一的HEM方面的文章，是UMass的研究人员提出的目标检测方面的难例挖掘算法。

HEM是“难例挖掘”的意思，让算法能够自己找到很难区分的样本，然后进一步供以训练。最后使得算法可以更好地区分难例。

举个栗子：在目标检测算法中，检测器经常会有错检，比如它的目标是检测篮球，但它很容易检测到光头上去。那这个光头，就是一个难例。HEM可以找到这些难例，然后进行针对性训练，以达到提升检测性能的目的。

相关的上一篇博文是《online hard negative mining》的解析，我对OHEM做了一定程度的解析。有兴趣可以戳链接。

先按国际惯例，给出标题和链接：

标题：《Unsupervised Hard Example Mining from Videos for Object Detection》

链接：http://openaccess.thecvf.com/content_ECCV_2018/papers/SouYoung_Jin_Unsupervised_Hard-Negative_Mining_ECCV_2018_paper.pdf

核心思想

此文的核心思想很好描述：在视频中对每个单帧目标检测，在连续的10帧里，如果检测框稳定输出，则可以认为这是一个正样本，如果偶尔冒出一两个框，则认为这一两个野框框到的是负样本。这个负样本成功引起了咱算法的注意，这可不是一般的负样本，这是能忽悠检测错检的负样本。咱把含有这种负样本的帧收集下来，针对性训练，是不是可以提高检测器对这种负样本的“免疫性”呢？

来来来，不爱看字的看看图：

图1

对图1简单叙述：表示两个视频中的连续帧。黄色框表示正确检测结果，稳定并且有很高的confidence。红色框就是万恶的困难负样本。需要强调的是，检测器对每帧的检测都是独立的。

详细操作步骤

1. 获取视频数据，直接在YouTube上下载的，未经过标注的视频。这就是文章标题第一个单词“unsupervised”的含义；

2. 用经过预训练的检测器Faster R-CNN，对每个视频逐帧inference，那么对于每帧都应该有一些bbox输出；

这里的预训练用专门的数据集，比如Caltech行人检测的数据集和WIDER FACE的人脸数据集。

3. 针对第2步得到的Bbox，联系到它的±5帧，即前后5帧。策略为：将每个bbox扩大至100x100的区域(search region)，把每个bbox划出的patch当作template，在前后5帧中进行标准化互相关操作(NCC)。用小框(bbox)对大框(search region)进行NCC，NCC阈值设为0.5，那么NCC会有一个结果，相邻帧检测会有一个结果，如果这俩结果IOU小于0.2，则判断这是个“野框”，判断为困难负例；反之，则判断这个框为伪正例。为什么叫伪正例呢？因为这是机器认为的“正例”，顶多算个银水，只有人工标注的GT才能算金水（没玩过狼人杀的自动跳过这句）。

不爱看字的看图：虚线框代表100x100的search region，如果相邻帧的检测结果继续出现在seach region内，并且iou大于0.2则认为没有闪动。反之，则认为检测闪动，判断其为困难负例。