作者提出,训练集中的类别不平衡是阻碍一阶段检测器达到与二阶段检测器相同效果的主要原因(因为在二阶段检测中,在前景和背景数量上通过启发式采样例如固定前景背景比例,online hard mining部分解决了这一问题),因此提出一个新的loss函数。
相反在一阶段中,尽管启发式采样也被应用,但是训练过程仍然被易被分类的背景examples所主导。这一问题可以通过bootstrapping或者hard example mining解决。
对于bootstrapping介绍见https://blog.csdn.net/chenhongc/article/details/9404583
hard negative mining见https://blog.csdn.net/u012285175/article/details/77866878
而focal loss的思想即,在训练中通过scaling factor自动降低易训练的样本对训练的贡献,而提升难训练样本的权重。至于loss公式具体的形式并不是最重要的,以下给出了一种形式:
在的前提下(高IOU的样本被权重弱化)调整几个值显示不同IOU下单独的loss结果。
作者同时给出网络结构RetinaNet(基于ResNet-101-FPN主干)来显示focal loss的效果。
RetinaNet借鉴了许多先前的稠密检测器,例如RPN提出的anchor,SSD和FPN中的特征金字塔等等。然而作者宣称,这些好的效果主要来自loss函数而不是网络结构。
对于focal loss,与其说处理了hard examples,不如说是降低了easy examples的贡献权重。因此作者说,focal loss专注于训练一个hard example