Focal Loss for Dense Object Detection阅读笔记1

最新推荐文章于 2025-03-03 22:26:08 发布

原创最新推荐文章于 2025-03-03 22:26:08 发布 · 215 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#目标检测算法外文文献阅读

本文探讨了目标检测算法中One-stage与Two-stage的区别，分析了One-stage算法精度较低的原因在于类别不平衡问题。提出了一种新的损失函数Focal Loss，用于解决易分类样本对训练的影响，通过在COCO数据集上的实验，证明了Focal Loss能有效提升One-stage算法RetinaNet的速度与精度。

粗略地阅读了一下这篇论文，下面主要想讲述一下作者想解决的问题、该论文的主要贡献，并对文章中的一些生僻概念进行解释。

目标检测算法一般分为两种：one-stage detector、two-stage detector。

Two-stage detector:

该类算法讲检测问题分两步走，首先产生候选区域（region proposal），然后对候选区域进行分类。（region proposal是什么？）

One-stage detector:

没有region proposal阶段，直接产生目标位置以及类别。（为什么可以没有region proposal阶段？？）

在目标检测算法中，一直存在一个现象，就是One-stage detector虽然快于Two-stage detector，但是其精度总是低于后者，作者指出该现象的原因是由于one-stage detector训练时类别不平衡导致的。Two-stage detector不存在类别不平衡现象，因为在Proposal stage能够迅速降低候选目标位置的数目到一个很小的数目，过滤掉大多数背景样本；在第二阶段（分类阶段）中，执行抽样启发式（sampling heuristics）来保持前景与背景比例的一个平衡，sampling heuristics有：固定前景与后景比、OHEM。Two-stage detector能够降低候选目标位置的数目，但是One-stage detector不行，它必须处理一组大得多的候选目标位置，虽然也可以采用类似于two-stage的抽样启发式（sampling heuristics）方法，但是由于在训练时主要以easy negative example为主，所以此方法不起作用（为什么不起作用？？？？）。在目标检测的分类问题中，该问题通常通过boostrapping和hard example mining解决。

什么是easy negative example？

一张图片有前景和背景，处在前景和背景的过渡区域是不容易分类的，完全处在背景上的区域是容易分类的，这种易分类的negative是easy negative。easy negative example由于分类明确，所以其分类的confidence很高，其loss很小，反向时梯度也很小，但是由于图片中easy negative example比较多，所以其loss就很大。

这篇文章想到解决的问题就是，首先，发现One-stage detector的精度比不上Two-stage detector的原因是类别不平衡；然后，提出解决类别不平衡的一个方法是重塑标准交叉熵损失函数，提出Focal Loss，以使得易分类样本对应的损失函数值的权重变小；最后，为了验证Focal Loss的实用性，作者写了一个One-stage detector算法——RetinaNet，该One-stage detector算法使用Focal Loss作为损失函数，在COCO数据集上进行测试，其速度和精度都超过当前最好的One-stage、Two-stage目标检测算法，证明了Focal Loss确实能够改善One-stage detector速度快但精度没有Two-stage detector高的现象。