【论文笔记(6)】Focal Loss for Dense Object Detection

本文深入研究了为何单阶段目标检测器在精度上落后于两阶段检测器,发现类别失衡是主要原因。为此,文章提出了Focal Loss,这是一种动态缩放的交叉熵损失函数,能够减少分类清晰样本的损失权重,使模型更专注于困难样本。实验表明,Focal Loss使得RetinaNet在保持快速检测速度的同时,精度超越了现有的两阶段检测器。
摘要由CSDN通过智能技术生成

摘要

迄今为止精度最高的目标检测器是基于R-CNN推广的两阶段方法,其中分类器被应用于候选目标位置的稀疏集合。相比之下,对可能的目标位置进行常规密集采样的单级探测器具有更快和更简单的潜力,但到目前为止,其精度落后于两级探测器。在这篇文章中,我们调查了为什么会出现这种情况。我们发现,在密集检测器的训练过程中遇到的极端的前景-背景类不平衡是主要原因。我们建议通过重新定义标准交叉熵损失来解决这类不平衡问题,使其减少分类清晰的样本的损失的权重。我们的Focal Loss将训练重点放在一组稀疏的困难示例上,并防止大量容易的负样本在训练过程中主导探测器。为了评估损失的有效性,我们设计并训练了一个简单的高密度探测器,我们称之为RetinanNet。我们的结果表明,当使用Focal Loss进行训练时,RetinanNet能够与以前的单级检测器的速度相匹配,同时超过所有现有的最先进的两级检测器的精度。代码在:https://github.com/facebookresearch/Detectron.

简介

当前最先进的目标检测器是基于两阶段的、proposal 驱动的机制。如R-CNN框架[11]中所普及的,第一阶段生成候选目标位置的稀疏集合,第二阶段使用卷积神经网络将每个候选位置分类为前景类或背景类。通过一系列的改进[10,28,20,14],这个两阶段框架在具有挑战性的COCO基准上始终如一地达到最高精度[21]。

尽管两级探测器取得了成功,一个自然的问题是:一个简单的单级探测器能达到同样的精度吗?单级探测器用于对目标位置、尺度和长宽比进行有规则的密集采样。最近在单级探测器上的工作,如YOLO[26,27]和SSD[22,9],显示了有希望的结果,与最先进的两级方法相比,产生的探测器速度更快,精度在10-40%以内。

本文进一步推进了这一领域:我们提出了一种单级目标检测器,它能实现两级检测器的最先进的COCO 平均精度,例如特征金字塔网络(FPN)[20]或更快的R-CNN的MASK R-CNN[14]变体[28]。为了达到这一结果,我们确定训练过程中的类别失衡是阻碍一级检测器达到最高精度的主要障碍,并提出了一种新的损失函数来消除这一障碍。

在类R-CNN检测器中,通过两级级联(two-stage cascade )和抽样启发式(sampling heuristics)解决了类不平衡问题。候选阶段(例如,选择性搜索[35]、EdgeBox[39]、深度掩码[24,25]、RPN[28])迅速将候选对象位置的数量缩小到少量(例如,1-2k),过滤掉大多数背景样本。在第二分类阶段,执行抽样启发式(sampling heuristics)方法,例如固定的前景背景比(1:3)或在线困难样本挖掘法(online hard example mining),在 foreground 样本和 background 样本之间维持可控的平衡。

相反,one-stage 检测器则必须处理一个由图像中规则分布的候选目标位置组成的大样本集。在实践中,目标位置的总数目通常可达 10 万左右,并且密集覆盖空间位置、尺度和长宽比。但它们的效率很低,因为训练过程仍然由容易分类的背景例子主导。这种低效率是目标检测中的一个经典问题,通常使用 bootstrapping 或困难样本挖掘来解决。

在本文中,我们提出了一个新的损失函数,它可以替代以往用于解决类别失衡问题的方法。这个损失函数是一个动态缩放的交叉熵损失函数,随着正确分类的置信度增加,函数中的比例因子缩减至零,见图1。在训练过程中,这个比例因子可以自动地减小简单样本的影响,并快速地将模型集中在困难样本上。实验表明,我们提出的ocal Loss使我们能够训练一个高精度的,单阶段检测器,显著优于抽样启发式或困难示例挖掘训练的替代方法,这是训练单阶段检测器的前一个最先进的技术。最后,我们注意到Focal Loss的确切形式并不重要,并且证明了其他实例(instantiations)也可以实现类似的结果。

在这里插入图片描述图1:我们提出了一种新的损失函数 Focal Loss,在标准的交叉熵标准上添加了一个因子 。设定 γ > 0 可以减小分类清晰的样本的相对损失(pt > .5),使模型集中于困难的错误分类的样本。试验证明,在存在大量简单背景样本(background example)的情况下,我们提出的 Focal Loss 函数可以训练出准确度很高的密集对象检测器。

为了证明所提出的Focal Loss的有效性,我们设计了一个简单的一级目标检测器,称为RetinanNet,因其在输入图像中对目标位置进行密集采样而得名。它的设计特点是有效的in_network特征金字塔和锚盒的使用。它借鉴了[22,6,28,20]的各种最新想法。RetinaNet高效准确,我们最好的模型基于 ResNet-101- FPN 骨干网&

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值