Gradient Harmonizing Mechanism (AAAI 2019)
文章
Focal Loss之后又一篇针对one-stage detector中的imbalance问题发起挑战的论文。文章中方法与Focal Loss相同的地方在于会减小简单样本对于模型的梯度影响,但也有两个地方与Focal Loss不一样:1.针对过于困难的样本(即本文所说的gradient norm过大),该方法认为其实是outlier,也要减小梯度对模型的影响;2.不局限与对cross entropy的改进,还扩展到了regression部分的loss。
从上图可以看到,当模型converged时,很多样本的梯度是接近0(简单)的,也有挺多的样本梯度还比较大(困难),由于CE不对简单样本的梯度做抑制,所以由于简单样本的数量巨大,导致最后简单样本的grad norm之和会很大,主导了模型的训练,但这对模型其实并没有太大意义。Focal Loss则主动减小了简单样本的梯度,从而使模型更注重其它样本的训练,从而提升了性能。而本文的方法就是,希望每种难度的样本影响都能比较均衡,具体方法如下。
对