【论文阅读笔记】Focal Loss for Dense Object Detection

最新推荐文章于 2023-06-25 10:46:51 发布

时光机ﾟ

最新推荐文章于 2023-06-25 10:46:51 发布

阅读量276

点赞数

分类专栏：论文读书笔记 # 目标检测

本文链接：https://blog.csdn.net/qq_19784349/article/details/86629968

版权

论文读书笔记同时被 2 个专栏收录

79 篇文章 4 订阅

订阅专栏

目标检测

20 篇文章 1 订阅

订阅专栏

第一次发布时间：2017.08
第二次发布时间：2018.02
论文地址：Focal Loss for Dense Object Detection

全文概括

该论文首先总结了目标检测的两个主要方向：1) two-stage 区域候选型检测器；2) one-stage 密集采样每一个可能的位置。Two-stage 分为两段，第一段专注于 proposals 的提取，第二段专注于对第一段提取出的 proposals 进行分类和边框回归。One-stage 摒弃了提取 proposals 的过程，对图片分格后，对每个格子预测一定数量的边框。相应的，这两种网络也各有相应的问题。Two-stage 网络需要单独对提取出的 proposals 进行分类和回归，这将带来速度的问题；One-stage 网络没有提取 proposals，这将引入前景背景类别不平衡的问题，给精确度带来影响；

而本文引进的 focal loss，就是为了解决 one-stage 所丢失的精确度问题。其参考了 two-stage 提取 proposal 带来的影响，给背景anchor 和前景anchor对应的权重，以解决样本类别不平衡问题；

最后的损失函数为： $FL(p_t)=-\alpha_t(1-p_t)^\gamma\mathop{log}(p_t)$ 其前身为交叉熵损失函数： $CE(p_t)=-\mathop{log}(p_t)$ 其中， $p_t=\begin{cases}p&if\ y=1\\ 1-p &otherwise\end{cases}$ ，是不同类别的概率值(所以，这里使用sigmoid函数，而不是softmax函数，作为其分类函数)， $\alpha_t=\begin{cases}\alpha &if\ y=1 \\ 1-\alpha, &otherwise\end{cases}$ .
该损失函数有两个超参数： $\alpha$ 和 $\gamma$ ， $\alpha$ 是为了解决正负样本不平衡问题， $\gamma$ 是为了解决 easy-examples 和 hard-examples问题（采取超参 $\gamma$ 是为了解决大量 easy-examples，背景样本，所导致的 loss 倾向背景的问题；同时采取 $\alpha$ ，是因为作者发现这能略微提升最后的准确度，且 $\alpha$ 这种，是对类别不平衡通用的一种方法）。

介绍

作者首先介绍了类别不平衡的问题在 R-CNN 系列解决了的原因：第一阶段提取候选区域，已经快速地减少候选区域中属于背景的样本数量；第二阶段（分类阶段）使用一些样本启发行为：固定正负样本比（比如 $1 : 3$ ）、在线硬样本缩减（Online hard example mining、OHEM，该方法通过对每一个样本的loss进行排序，选出其中loss最大的 top-N 用于训练。该方法的问题在于其去掉了正的 esay-examples，这将使精确度受损）

Focal Loss

Focal Loss 的公式为： $FL(p_t)=-\alpha_t(1-p_t)^\gamma \mathop{log}(p_t)$ 其中， $p$ 是每个类别的概率$ $p_t=\begin{cases}\alpha & if\ y=1 \\ 1-\alpha & otherwise\end{cases}$ ，
$\alpha$ 和 $\gamma$ 都是固定值，不参与训练。
$\alpha$ 用于解决类别不平衡问题，加权重因子是解决类别不平衡问题的一个通用方法，前景使用 $\alpha$ ，背景使用 $1-\alpha$ ；
$\gamma_t$ 用于解决难易样本问题，不管是正样本和负样本，当 $p_t$ 越大， $(1-p_t)^\gamma$ 越小；
$\alpha$ 和 $\gamma$ 的最优值是互相影响的，当 $\gamma$ 上升时， $\alpha$ 应该略微下降；作者的论文给出， $\gamma=2，\alpha=0.25$ 得到最好结果。

RetainaNet

RetainaNet 是由三部分组成：骨干网络、分类子网络、边框回归子网络；

在这里插入图片描述

骨干网络是FPN网络，其能多个level，不同尺度检测目标。

Anchors，和RPN（Faster RCNN中的推荐候选区域的网络）一样，但是对多分类检测做了点修改，阈值条件也不同。和ground-truth 的 IoU达到0.5就认为是正样本，当IoU $\in[0.4, 0.5)$ 就属于背景样本，当IoU $\in[0.4, 0.5)$ 就不赋值，即忽略。（个人认为，该忽略可帮助减少训练那些IoU不那些小，但足以看出前景信息的边框）

分类子网络，是一个小的FCN，在每一层FPN网络后面接着。每一个FCN后连接的分类子网络参数是共享的。而与RPN不同的是，分类子网络和回归子网络参数不共享。

边框回归子网络，也是一个FCN，回归的是边框的offset。不像很多其他的分类网络，该网络是分类不可知的。

Inference，在每一个level的预测时，为了加快检测速度，在检测置信度设为0.05的同时，只提取top 1000个边框。最后整合所有的边框时，采用NMS，边框置信度设为0.5.

Facal loss，是应用于分类子网络的输出的，作者发现 $\gamma=2$ 是效果很好， $\gamma\in[0.5, 5]$ 都相对健壮； $\alpha$ 也相对有一个稳定的范围。最后作者的实验中， $\gamma=2, \alpha=0.25$ 效果最好。

初始化对于骨干网络，使用ImageNet预训练；对于其余的conv，除了最后一层，设 $b i a s = 0$ ,以及 $\sigma=0.01$ 的高斯核初始化；分类层，bias初始化为 $-\mathop{log}((1-\eta)/\eta)$ ， $\eta$ 是一个先验超参，设为 $0.01$ 。作者认为，该设定可以减少在训练初期减少该loss的不稳定程度，因为在训练初期，正负类的概率值差不多，该loss体现不出来。

Optimization，使用SGD，在8个GPU上每一个minibatch使用16张图片（每个GPU2张），初始学习率为 $0.01$ ，权重衰减为 $0.0001$ ，动量设为 $0.9$ ，最后的训练loss为focal loss(用于分类)，平滑L₁损失函数(用于回归)的和。总共大概是80k次迭代(我猜)。

时光机ﾟ

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读笔记】Focal Loss for Dense Object Detection

第一次发布时间：2017.08第二次发布时间：2018.02论文地址：Focal Loss for Dense Object Detection全文概括该论文首先总结了目标检测的两个主要方向：1) two-stage 区域候选型检测器；2) one-stage 密集采样每一个可能的位置。Two-stage 分为两段，第一段专注于 proposals 的提取，第二段专注于对第一段提取出的...
复制链接

扫一扫

专栏目录