目标检测方法分为两大阵营,一类是以Faster RCNN为代表的两阶段检测的方法,一类是以SSD为代表的单阶段检测方法。两阶段方法在检测精度更出色,单阶段检测方法的Pipline则更简洁,速度更快,但是精度不如两阶段检测方法,一个原因是单阶段的检测方法受限于正负样本和简单困难样本的不均衡问题,导致训练效果不佳。
为了解决这种不均衡的问题,有研究者提出了在线困难样本挖掘的方法(OHEM),但是这个方法一方面不够高效,另一方面它只选择topN而丢弃了太多样本。后来,何凯明等提出了Focal Loss来改进cross-entropy loss, 取得了不错的效果,但是focal loss 的选择相对麻烦,因为它引入了两个超参数需要细致选择。
本文在前面研究的基础上,从梯度分布的角度,进一步指出了单阶段检测中不均衡性的本质,提出了梯度均衡化的策略来改善训练过程。
对于一个样本,如果它能很容易地被正确分类,那么这个样本对模型来说就是一个简单样本,模型很难从这个样本中得到更多的信息,从梯度的角度来说,这个样本产生的梯度幅值相对较小。而对于一个分错的样本来说,它产生的梯度信息则会更丰富,它更能指导模型优化的方向。对于单阶段分类器来说,存在着大量的负样本,可以很容易地正确分类,少量的正样本通常是困难样本。因此正负样本的不均衡性本质是简单困难样本的不均衡性。
更进一步,单个简单样本的梯度对于整个梯度的贡献很小,但是当存在大量的简单样本时,它们对梯度的贡献就不可忽略,甚至可以大于困难样本的贡献,因此导致训练过程不高效,模型没法学习到有用的信息。
基于此,作者指出难度不同样本的不均衡性可以在梯度模长的分布上体现出来。通过对梯度分布的研究,