原文:Well-classified Examples are Underestimated in Classification with Deep Neural Networks
摘要
在深度分类模型中,一个约定俗成的处理技巧是:更关注那些分类效果不好的样本,忽略那些分类效果较好的样本,因为它们离决策边界比较远。举例来说,当用交叉熵损失训练模型时,似然较高的样本,也就是分类效果较好的样本,在反向传播中,贡献的梯度较小。然而,理论证明,这种常规的处理会阻碍模型的表达能力、持续优化以及边际收益。为了抵消这种缺陷,我们提出给分类效果较好的样本一些额外的激励,进而激活它们在模型学习过程中的贡献。反例从理论上解决了三个问题。我们结合这个反例,从不同的任务上,包括:图像分类、图分类、机器翻译,通过直接验证理论结果和实际性能提升,验证了这个结论。进一步来说,我们这项工作表明,我们可以处理复杂的场景,如:类别不平衡、OOD检测、对抗攻击下的应用等。
引言
MSE(Mean-Square Error)和CE(Cross-Entropy)是两种常用的损失函数,CE相比MSE更受欢迎,是因为CE针对易分类的样本仍然有较大的梯度,进而可以带来更准确的预测。有一个普遍的认识是,在训练过程中,易分类样本相比难分类样本贡献更少的梯度,易分类样本包含的信息相对较少,CE相关的变体也默认这个共识。
我们针对上述认识,基于三个事实,提出一些质疑:
(1)最近的一些针对不平滑学习的研究表明,削弱从丰富类别的相对易分类的样本中学习,会严重降低模型的表达能力;
(2)针对EBM(Energy-Based Models)模型,需要一个尖的能量表面。然而从图一来看,用CE训练的模型,能量表面不太尖,可能的原因是:CE损失没有足够的能力去降低正样本的能量,只要它比负样本的能量低。
(3)针对分类问题,构建一个具备大的边界的分类模型会有一个好的泛化性和鲁棒性,但是从我们的研究来看,CE 损失会减小分类边界。
贡献:
首先,从理论上论述了在表示学习、能量函数以及边缘增速的学习过程中,CE损失在反向传播中的问题。
其次,我们提出了Encouraging Loss (EL),对比CE loss,它可以提升易分类样本的权重。此外,我们也证明了,EL可以激活易分类样本的表示学习、降低数据能量以及扩大分类边界。
然后,我们进行了一系列的实验,来验证EL的有效性。
相关工作
表征学习、用EBM模型解释分类器、扩大分类边界。
理论探索
符号和设置
negative log-likelihood (NLL):
可以看到,梯度取决于损失函数,logit正则化函数以及模型当前的
CE loss在三个方面的局限性
- Normalization function brings a gradient vanishing problem to CE loss and hinders the representation learning
随着预测值 接近于1,正则化函数又将梯度拉回到饱和区域。
-
CE loss has insufficient power in reducing the energy on the data manifold
概率密度:
CE loss 可以表示为:
-
CE loss is not effective in enlarging margins
从易分类样本激活学习的增益
encouraging loss:
结论
这篇文章中,我们从理论和实证两个方面说明了分类较好的样本对模型进一步优化是有益的。为了说明这个结论,我们首先分析了通常实践的缺陷,它削弱了从这些样本中继续学习的能力。然后,我们提出了一些反例来说明这些易分类样本的价值,通过各种全面的实验,验证了这些样本在优化过程中的正面作用。