目标检测 | OHEM

在线硬例挖掘详解

最新推荐文章于 2025-10-08 09:15:00 发布

转载最新推荐文章于 2025-10-08 09:15:00 发布 · 1.2w 阅读

·

0

·

图像目标检测同时被 2 个专栏收录

34 篇文章

订阅专栏

视频目标检测

13 篇文章

订阅专栏

本文详细解析了在线硬例挖掘(OHEM)的过程及其在Fast-RCNN框架下的应用。通过减少前景和背景样本比例并自动选择困难样本，简化了训练流程。介绍了OHEM的具体实现步骤，包括如何通过损失排序及非极大抑制选取最具挑战性的区域。

部署运行你感兴趣的模型镜像

这里主要说下该论文的hard mining过程：

先上图，如Figure2所示：

从图中可以看出，本文的亮点在于在每次迭代中，较少训练样本下，如何hard negative mining，来提升效果。

即针对Fast-RCNN框架，在每次minibatch（1张或者2张）训练时加入在线筛选hard region的策略，达到新的SoA。

需要注意的是，这个OHEM适合于batch size（images）较少，但每张image的examples很多的情况。

（thousands of candidate examples，这里的example可以理解为instance、region或者proposal）

这是一次ML经典算法bootstrapping在DL中的完美“嵌入”。

具体来说：

1 将Fast RCNN分成两个components：ConvNet和RoINet. ConvNet为共享的底层卷积层，RoINet为RoI Pooling后的层，包括全连接层；

2 对于每张输入图像，经前向传播，用ConvNet获得feature maps（这里为RoI Pooling层的输入）；

3 将事先计算好的proposals，经RoI Pooling层投影到feature maps上，获取固定的特征输出作为全连接层的输入；

需要注意的是，论文说，为了减少显存以及后向传播的时间，这里的RoINet是有两个的，它们共享权重，

RoINet1是只读（只进行forward），RoINet2进行forward和backward：

a 将原图的所有props扔到RoINet1，计算它们的loss（这里有两个loss：cls和det）；

b 根据loss从高到低排序，以及利用NMS，来选出前K个props（K由论文里的N和B参数决定）

为什么要用NMS? 显然对于那些高度overlap的props经RoI的投影后，

其在feature maps上的位置和大小是差不多一样的，容易导致loss double counting问题

c 将选出的K个props（可以理解成hard examples）扔到RoINet2，

这时的RoINet2和Fast RCNN的RoINet一样，计算K个props的loss，并回传梯度/残差给ConvNet，来更新整个网络

论文提及到可以用一种简单的方式来完成hard mining：

在原有的Fast-RCNN里的loss layer里面对所有的props计算其loss，根据loss对其进行排序，（这里可以选用NMS），选出K个hard examples（即props），

反向传播时，只对这K个props的梯度/残差回传，而其他的props的梯度/残差设为0即可。

由于这样做，容易导致显存显著增加，迭代时间增加，这对显卡容量少的童鞋来说，简直是噩梦。

为什么说是online？

论文的任务是region-based object detection，其examples是对props来说的，即使每次迭代的图像数为1，它的props还是会很多，即使hard mining后

为什么要hard mining：

1 减少fg和bg的ratio，而且不需要人为设计这个ratio；

2 加速收敛，减少显存需要这些硬件的条件依赖；

3 hard mining已经证实了是一种booststrapping的方式，尤其当数据集较大而且较难的时候；

4 eliminates several heuristics and hyperparameters in common use by automatically selecting hard examples, thus simplifying training。

放宽了定义negative example的bg_lo threshold，即从[0.1, 0.5)变化到[0, 0.5)。

取消了正负样本在mini-batch里的ratio（原Fast-RCNN的ratio为1:3）

===

除了OHEM外，在训练过程中，论文用到了multi-scale的train&test、iterative bounding box regression这两种策略。具体参考fast-rcnn和sppnet这两篇论文。

===

还是看效果说话，效果屌屌的。

参考：

https://blog.csdn.net/u012905422/article/details/52760669

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率

评论 4

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。