RetinaNet-学习记录

引入:本次学习内容基本来自于Tsung-Yi Lin ,Priya Goyal编写的的《Focal Loss for Dense Object Detection》,以及部分讲解视频,本学习记录仅为个人学习收获,部分内容存在纰漏烦请各位大佬批评指正。
(一)摘要:在密集目标检测任务中,传统的交叉熵损失函数经常因为类别不平衡问题而失效。易于分类的负样本数量远远超过正样本,这导致训练过程中负样本的损失值占据主导地位,使得模型难以有效学习和区分正样本。为了解决这个问题,研究人员提出了焦点损失。

(二)发表时间:2017

(三)关键词:目标检测,卷积神经网络,单阶段检测,焦点损失函数,类不平衡问题

(四)学习记录:

作者认为单节段的目标检测网络比双阶段的更有潜力,即使现在双阶段目标检测的性能已经超过了单节段目标检测。于是,作者调查原因发现,主要是因为单节段网络在训练过程中需要极端情况—背景类别不平衡。因此,作者通过重建交叉熵损失来解决这个问题,并且根据此想法设计了一个新的检测网络——RetinaNet。

作者提出了一种新的损失函数来解决类别不平衡的问题。旨在通过降低内部值的权重来解决类别不平衡问题。其基本形式是这样的。

在这之中,y∈{±1}中指定了ground-truth类,p∈[0,1]是模型对标签y=1的类的估计概率。文中也说到“As our experiments will show, the large class imbalance encountered during training of dense detectors overwhelms the cross entropy loss. Easily classified negatives comprise the majority of the loss and dominate the gradient。”。主要意思是指出在处理类别不平衡的目标检测任务中,由于负样本数量远远超过正样本数量,传统的交叉熵损失函数无法很好地处理这种情况。易于分类的负样本在损失计算中所占比例较大,对模型的梯度计算产生显著影响。而通过增加调制因子(1−pt)γ,减少了简单示例的损失贡献,并扩展了示例接收低损失的范围。

RetinaNet由一个主干网络和两个特定于任务的子网组成。主干网络负责输入特征的卷积处理,第一个子网负责输出的卷积分类,第二个子网负责执行边界回归。如图所示。

主干网络使用特征金字塔结构搭建而成,主要用于生产丰富的多尺度卷积特征金字塔。分类子网的设计也很简单,从给定的金字塔级别获取具有 C 个通道的输入特征图,子网应用四个 3×3 卷积层,每个具有 C 个过滤器,每个后跟 Re LU 激活,然后是带有 KA 过滤器的 3×3 卷积层。最后附加 sigmoid 激活以输出每个空间位置的 KA 二进制预测。

边界框回归子网的设计与分类子网相同。

(该图像来自网络)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值