loss 加权_样本生而不等——聊聊那些对训练数据加权的方法

最新推荐文章于 2024-07-16 17:02:33 发布

M-末末末

最新推荐文章于 2024-07-16 17:02:33 发布

阅读量1.2k

点赞数

文章标签： loss 加权

本文链接：https://blog.csdn.net/weixin_34520360/article/details/112045395

版权

本文探讨了在机器学习和深度学习中，如何通过训练数据的加权策略来提高模型的测试性能。文章介绍了两种对立的思想：对高损失样本加重权重（如Focal Loss）和逐步学习简单样本（如Curriculum Learning）。通过引入无偏验证集，研究者使用Influence Function来近似评估样本对模型的影响，进而优化数据筛选。在实际应用中，Data Dropout和Meta-learning方法被用来动态调整样本权重，有效提升了模型性能，尤其是在类别不平衡和标签噪声的情况下。

摘要由CSDN通过智能技术生成

摘要：现有大部分机器学习或者深度学习的研究工作大多着眼于模型或应用，而忽略对数据本身的研究。今天给大家介绍的几个文章就关注于在机器学习中如何通过对训练集的选择和加权取得更好的测试性能。

在开始之前，先和大家简单回顾一下我个人觉得相关的几方面工作。其实远在深度学习时代之前，根据loss对样本加权的工作就已经有很多。神奇的是，其实在一条线上有着截然相反的想法的研究：第一类工作的想法是如果一个样本训练得不够好，也就是loss高的话，那么说明现在的模型没有很好fit到这样的数据，所以应该对这样的样本给予更高的权重。这一类工作就对应到经典的Hard Negative (Example)Mining，近期的工作如Focal Loss也是这个思想。另一类工作的想法是学习需要循序渐进，应该先学习简单的样本，逐渐加大难度，最终如果仍然后Loss很大的样本，那么认为这些样本可能是Outlier，强行fit这些样本反而可能会使泛化性能下降。这一类中对应的是Curriculum Learning或者Self-Paced Learning类型的工作。本质上，这两个极端对应的是对训练数据本身分布的不同假设。第一类方法认为那些fit不好的样本恰恰是模型应当着重去学习的，第二类方法认为那些fit不上的样本则很可能是训练的label有误。

所以，一个很有趣的问题是：我们应该何时在这两种极端之间选择？在这两个极端之间是不是会有更好的权衡？这个问题乍看上去没什么简单的办法，今天要介绍的文章就是引入了一个新的信息源——一个无偏的验证集来解决这个问题。有了这样额外的信息源之后，这个问题就变成了如何对每个样本加权，使得验证集上的loss下降。一个naive的办法自然是用leave one out，去掉每个样本训练一个model，但是这个cost会非