[CVPR-17] Focal Loss for Dense Object Detection

最新推荐文章于 2023-06-25 10:46:51 发布

zzl_1998

最新推荐文章于 2023-06-25 10:46:51 发布

阅读量298

点赞数

分类专栏：目标检测

本文链接：https://blog.csdn.net/qq_40731332/article/details/107231473

版权

目标检测专栏收录该内容

15 篇文章 3 订阅

订阅专栏

摘要

Introduction

Focal Loss

Focal Loss Definition

摘要

在训练密集detectors时，前景-背景极度不平衡是one-stage方法accuracy低的主要原因。我们提出修改标准cross entropy loss，降低分类良好的example的权重。Focal Loss专注于在稀疏的hard examples上训练，阻止大量简单的negative examples对训练的影响。使用Focal Loss训练时，RetinaNet的时间接近one-stage方法，accuracy超过目前最优的two-stage方法。

Introduction

Two-stage方法通过在第一步挑选Proposal时，过滤了大量的background。第二步通过启发式采样，设置固定的前景-背景比例（1：3），使得前景-背景比例合适。Loss function是一个动态scaled交叉熵损失，其中，scaling变量在正确类概率增加时，逐渐减少到0。直观地看，scaling变量能够自动降低easy example的贡献权重。同时，我们发现，focal loss的准确格式不是最重要的。

Focal Loss

适用场景：训练时，前景-背景类有着严重的不均衡（1：1000）。原始交叉熵损失：

使用原始交叉熵损失时，即使example很容易被分类，依然会有一个较大的损失。当easy examples很多时，这些小的损失也会影响rare class。

Focal Loss Definition

当一个样本是未分类的并且pt很小，modulating factor接近1，loss和CE相似。当pt->1，factor将趋向于0，对well-classified example的权重会降低。
=2时表现最好

二分类模型默认初始化，正负样本的有着相同的p。因为存在class imbalance，frequent class的loss占据了全部，并且造成早期早期训练的不稳定性。在训练开始时，我们为rare class引入一个prior的概念，用于调整p值。这个对模型初始化的变动效果不错。具体是：b = −log((1 − π)/π)，π = .01

RetinaNet

包含一个backbone网络和两个task-specific subnetworks。第一个subnet在backbone输出的基础上，执行目标分类。第二个subnet执行bbox regression。

FPN

ResNet共有5个Residual Block（C1-C5），RetinaNet使用C3-C5，经过计算后分别得到P3-P5；P6是在C5基础上，通过3x3 stride-2卷积得到；P7是在P6基础上，通过3x3 stride-2卷积和ReLU得到。特征图的通道数统一设为256.

Anchors

特征图的每个点代表A=9anchor。具体来说，每个金字塔level，我们使用三个aspect ratios的anchors{1:2, 1:1, 2:1}。为了更密集覆盖，每一level，增加了{ $2^0$ , $2^{1/3}$ , $2^{2/3}$ } 三种aspect ratio anchors。每个level有A = 9种anchors，包含了32-813像素。
每个anchor对应K个one-hot vector of classification targets，K是目标类数量。
类似RPN的assignment rule，IoU超过0.5的anchors被认为是前景，IoU在[0, 0.4)，则认为是背景。每个anchor被指派到至多一个object box，vector相应位置为1，其他为0。如果一个anchor没有被指派（IoU在[0.4, 0.5]），在训练时会被忽略。
Box regression是anchor和它指派的object box之间的偏差。如果没有assignment，则被忽略。

推理

为了改善速度，我们仅编码每个FPN level得分最高的1k的box prediction（先除去detector confidence小于0.05的）。最后使用一个threshold为0.5的non-maximum suppression（非极大值抑制）来筛选最后的决定。

Focal Loss

在分类subnet的输出使用了focal loss。训练RetinaNet时，focal loss是应用在每张图片所有anchors上（将近100k）。一张图片的全部focal loss是由全部focal loss（约100k anchors）获得，被assigned到ground-truth box的anchor归一化。

zzl_1998

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[CVPR-17] Focal Loss for Dense Object Detection

目录摘要IntroductionFocal LossFocal Loss DefinitionRetinaNet推理摘要在训练密集detectors时，前景-背景极度不平衡是one-stage方法accuracy低的主要原因。我们提出修改标准cross entropy loss，降低分类良好的example的权重。Focal Loss专注于在稀疏的hard examples上训练，阻止大量简单的negative examples对训练的影响。使用Focal Loss训练时，R
复制链接

扫一扫