[CVPR-17] Focal Loss for Dense Object Detection

目录

摘要

Introduction

Focal Loss

Focal Loss Definition

RetinaNet

FPN

Anchors

推理

Focal Loss


摘要

在训练密集detectors时,前景-背景极度不平衡是one-stage方法accuracy低的主要原因。我们提出修改标准cross entropy loss,降低分类良好的example的权重。Focal Loss专注于在稀疏的hard examples上训练,阻止大量简单的negative examples对训练的影响。使用Focal Loss训练时,RetinaNet的时间接近one-stage方法,accuracy超过目前最优的two-stage方法。

Introduction

Two-stage方法通过在第一步挑选Proposal时,过滤了大量的background。第二步通过启发式采样,设置固定的前景-背景比例(1:3),使得前景-背景比例合适。Loss function是一个动态scaled交叉熵损失,其中,scaling变量在正确类概率增加时,逐渐减少到0。直观地看,scaling变量能够自动降低easy example的贡献权重。同时,我们发现,focal loss的准确格式不是最重要的。

Focal Loss

适用场景:训练时,前景-背景类有着严重的不均衡(1:1000)。原始交叉熵损失:

使用原始交叉熵损失时,即使example很容易被分类,依然会有一个较大的损失。当easy examples很多时,这些小的损失也会影响rare class。

Focal Loss Definition

  1. 当一个样本是未分类的并且pt很小,modulating factor接近1,loss和CE相似。当pt->1,factor将趋向于0,对well-classified example的权重会降低。
  2. =2时表现最好

二分类模型默认初始化,正负样本的有着相同的p。因为存在class imbalance,frequent class的loss占据了全部,并且造成早期早期训练的不稳定性。在训练开始时,我们为rare class引入一个prior的概念,用于调整p值。这个对模型初始化的变动效果不错。具体是:b = −log((1 − π)/π),π = .01

RetinaNet

包含一个backbone网络和两个task-specific subnetworks。第一个subnet在backbone输出的基础上,执行目标分类。第二个subnet执行bbox regression。

FPN

  • ResNet共有5个Residual Block(C1-C5),RetinaNet使用C3-C5,经过计算后分别得到P3-P5;P6是在C5基础上,通过3x3 stride-2卷积得到;P7是在P6基础上,通过3x3 stride-2卷积和ReLU得到。特征图的通道数统一设为256.

Anchors

  • 特征图的每个点代表A=9anchor。具体来说,每个金字塔level,我们使用三个aspect ratios的anchors{1:2, 1:1, 2:1}。为了更密集覆盖,每一level,增加了{2^0, 2^{1/3}, 2^{2/3}} 三种aspect ratio anchors。每个level有A = 9种anchors,包含了32-813像素。
  • 每个anchor对应K个one-hot vector of classification targets,K是目标类数量。
  • 类似RPN的assignment rule,IoU超过0.5的anchors被认为是前景,IoU在[0, 0.4),则认为是背景。每个anchor被指派到至多一个object box,vector相应位置为1,其他为0。如果 一个anchor没有被指派(IoU在[0.4, 0.5]),在训练时会被忽略。
  • Box regression是anchor和它指派的object box之间的偏差。如果没有assignment,则被忽略。

推理

  • 为了改善速度,我们仅编码每个FPN level得分最高的1k的box prediction(先除去detector confidence小于0.05的)。最后使用一个threshold为0.5的non-maximum suppression(非极大值抑制)来筛选最后的决定。

Focal Loss

  • 在分类subnet的输出使用了focal loss。训练RetinaNet时,focal loss是应用在每张图片所有anchors上(将近100k)。一张图片的全部focal loss是由全部focal loss(约100k anchors)获得,被assigned到ground-truth box的anchor归一化。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值