LearnFromPapers系列——样本混进了噪声怎么办?通过Loss分布把它们揪出来!
作者:郭必扬
时间:2020.12.30
前言:今天继续分享一篇很有意思的文章,来自2019年ICML的“Unsupervised Label Noise Modeling and Loss Correction”,本文发现了一个“大家都知道但又不太确定”的现象——noisy样本的loss一般比较大,通过实验证实了这一点,并利用这个特点来定位noise从而排除这些noise的影响,来提高模型的性能。可以说是挺有趣了!
- 论文标题:Unsupervised Label Noise Modeling and Loss Correction
- 会议/期刊:ICML-19
- 团队:Dublin City University (DCU)
一、本文的主要思想、贡献
- 首先发现并证实了,神经网络在学习“随机的标签”或“错误的标签”(都可以称为噪音样本)的时候,会比学习“正确的标签”要慢,由此发现噪音样本在训练时的loss更大;
- 通过对样本的loss distribution进行观察,作者发现可以使用一个Beta分布来刻画正常样本和噪音样本