Well-classified Examples are Underestimated in Classification with Deep NeuralNetworks

NLP_wendi

已于 2022-04-20 09:19:36 修改

阅读量810

点赞数 1

分类专栏：机器学习文章标签：机器学习

于 2022-04-12 20:35:57 首次发布

本文链接：https://blog.csdn.net/qq_32275289/article/details/124133002

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

原文：Well-classified Examples are Underestimated in Classification with Deep Neural Networks

摘要

在深度分类模型中，一个约定俗成的处理技巧是：更关注那些分类效果不好的样本，忽略那些分类效果较好的样本，因为它们离决策边界比较远。举例来说，当用交叉熵损失训练模型时，似然较高的样本，也就是分类效果较好的样本，在反向传播中，贡献的梯度较小。然而，理论证明，这种常规的处理会阻碍模型的表达能力、持续优化以及边际收益。为了抵消这种缺陷，我们提出给分类效果较好的样本一些额外的激励，进而激活它们在模型学习过程中的贡献。反例从理论上解决了三个问题。我们结合这个反例，从不同的任务上，包括：图像分类、图分类、机器翻译，通过直接验证理论结果和实际性能提升，验证了这个结论。进一步来说，我们这项工作表明，我们可以处理复杂的场景，如：类别不平衡、OOD检测、对抗攻击下的应用等。

引言

MSE（Mean-Square Error）和CE（Cross-Entropy）是两种常用的损失函数，CE相比MSE更受欢迎，是因为CE针对易分类的样本仍然有较大的梯度，进而可以带来更准确的预测。有一个普遍的认识是，在训练过程中，易分类样本相比难分类样本贡献更少的梯度，易分类样本包含的信息相对较少，CE相关的变体也默认这个共识。

我们针对上述认识，基于三个事实，提出一些质疑：

（1）最近的一些针对不平滑学习的研究表明，削弱从丰富类别的相对易分类的样本中学习，会严重降低模型的表达能力；

（2）针对EBM（Energy-Based Models）模型，需要一个尖的能量表面。然而从图一来看，用CE训练的模型，能量表面不太尖，可能的原因是：CE损失没有足够的能力去降低正样本的能量，只要它比负样本的能量低。

（3）针对分类问题，构建一个具备大的边界的分类模型会有一个好的泛化性和鲁棒性，但是从我们的研究来看，CE 损失会减小分类边界。

贡献：

首先，从理论上论述了在表示学习、能量函数以及边缘增速的学习过程中，CE损失在反向传播中的问题。

其次，我们提出了Encouraging Loss (EL)，对比CE loss，它可以提升易分类样本的权重。此外，我们也证明了，EL可以激活易分类样本的表示学习、降低数据能量以及扩大分类边界。

然后，我们进行了一系列的实验，来验证EL的有效性。