RetinaNet 论文总结

日期:2024年08月05日

目录

前言

论文摘要

Focal Loss

Cross Entropy Loss

Balanced Cross Entropy

 Focal Loss

RetinaNet

网络架构

ResNet 

Feature Pyramid Network (FPN)

Class Subnet

Box Subnet


前言

一般来说,one-stage的目标检测器在检测速度上有着明显优势,而two-stage的目标检测器的精确度比较高。但是RetinaNet的创造者们通过利用一种在cross entropy loss的基础上改进过的损失函数代替传统的损失函数,这使得一个one-stage的模型有了更高的速度和精确度。

论文标题:Focal Loss for Dense Object Detection
论文链接:[1708.02002] Focal Loss for Dense Object Detection (arxiv.org)

论文摘要

 “目前最高准确度的目标检测器基于一种由R-CNN推广的两阶段方法,在稀疏的一组候选目标位置上应用分类器。相比之下,一阶段检测器应用于可能目标位置的规则、密集采样,尽管有潜力更快、更简单,但在准确性上一直落后于两阶段检测器。在本文中,我们调查了为什么会出现这种情况。我们发现,密集检测器在训练过程中遇到的极端前景-背景类别不平衡是主要原因。我们提出通过重塑标准的交叉熵损失来解决这种类别不平衡问题,从而降低对已分类良好的样本的损失权重。我们的新颖损失函数Focal Loss将训练集中于一小部分难样本,并防止大量简单负样本在训练过程中压倒检测器。为了评估这种损失函数的有效性,我们设计并训练了一个简单的密集检测器,称为RetinaNet。结果表明,使用Focal Loss训练的RetinaNet能够在速度上与现有的一阶段检测器匹敌,同时在准确性上超越所有现有的最先进的两阶段检测器。代码见:https://github.com/facebookresearch/Detectron。

Focal Loss

Focal Loss 是这篇论文的核心,要理解 Focal Loss 应该先了解交叉熵损失。

Cross Entropy Loss

在上式中,y yy 的取值有 1 和 -1 两种,代表前景和背景。p pp 的取值范围是 [0,1],是模型预测的属于前景的概率,为了表示方便,定义一个Pt

 综合(1)(2)两个式子就可以得到:

 

 在类别不平衡的数据集上,交叉熵损失可能会导致模型偏向于预测多数类。这是因为损失函数没有考虑类别的不平衡问题,导致模型在多数类上的损失较小,而在少数类上的损失较大。

Balanced Cross Entropy

Balanced Cross Entropy在Cross Entropy Loss的基础上引入了一个权重因子α ∈ [ 0 , 1 ],当类标签是 1 时,权重因子是 α,当类标签是 -1 时,权重因子是 1 - α。

下面是Balanced Cross Entropy Function的表达式:

Focal Loss

对于很多损失函数,容易分类的负样本占损失的大部分,并主导梯度。所以作者重塑了交叉熵损失函数,以降低简单实例的权重,更加专注于困难的样本的训练。

下面是Focal Loss Function的表达式:

下面是原文中介绍的Focal Loss的两个特性:

(1)当一个样本被错误分类且 pt 很小时,调制因子接近1,损失几乎不受影响。当 pt 趋近于1时,调制因子趋近于0,已正确分类样本的损失会被降低。

(2) 调整参数 γ 平滑地调整了容易样本被降低权重的速率。当 γ = 0 时,Focal Loss 等同于交叉熵损失(Cross-Entropy Loss);随着 γ 增加,调制因子的作用也相应增强(在我们的实验中发现 γ = 2 效果最佳)。

RetinaNet

网络架构

下图是RetinaNet的plantUML图,backbone是ResNet50

 

ResNet 

输入图像: 输入的图像通过ResNet主干网络进行处理,生成不同层级的特征图。这些特征图从浅层到深层逐渐抽象,包含了不同尺度和语义信息。

Feature Pyramid Network (FPN)

特征金字塔网络: FPN在ResNet的不同层级特征图上构建金字塔结构,通过自底向上的路径逐层上采样,并与上层特征融合。这样每个层级的特征图都包含了来自多个尺度的信息。

Class Subnet

分类子网络: 每个FPN层级的特征图都通过分类子网络进行处理。分类子网络由4个卷积层组成,每个卷积层包含256个通道,最后一个卷积层输出的通道数为 K 其中 K 是类别数量,A 是每个特征图位置上的锚框数量。

Box Subnet

回归子网络: 每个FPN层级的特征图也通过回归子网络进行处理。回归子网络的结构与分类子网络类似,由4个卷积层组成,每个卷积层包含256个通道,最后一个卷积层输出的通道数为 4A ,用于预测锚框的偏移量。

  • 35
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值