20220304-label-noise-learning

最新推荐文章于 2024-04-16 09:49:32 发布

deepindeed

最新推荐文章于 2024-04-16 09:49:32 发布

阅读量287

点赞数

文章标签：机器学习人工智能深度学习算法 python

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/cwlseu/article/details/126607045

版权

本文探讨了深度学习模型在噪声标注数据上的过拟合问题，特别是标签噪声的影响。研究了噪声的类别，如对称、非对称和配对噪声，以及深度学习模型对此的敏感性。提出了解决方案，包括设计损失函数、训练策略和错误标注修正方法。文献调研部分介绍了NAF、AUM、早停策略以及SOP等方法，这些方法通过识别和减轻噪声样本的影响，提高模型的泛化能力。

摘要由CSDN通过智能技术生成

layout

title

tags

categories

description

date

post

Label Noise Learning

NLP

ML

paper

Label Noise Learning

2022-03-04 13:05:18 -0800

序言

过参数化在深度学习时代常常被提到，它的神经网络参数个数甚至超过了 training sample 的个数，在实验中也体现出了非常好的效果。但是，一旦training samples中带有一些噪声，整个模型就趋向于过拟合，没有办法很好地泛化到测试集。一般而言，training samples带噪声的方式有两种，一是在 data points上加 Gaussian noise，二是 label noise. 我们这里主要探究第二种。

存在噪声标注数据

诸如数据增强、权重衰减、dropout和批量归一化等流行的正则化技术已经被广泛应用，但是它们本身并不能完全克服在噪声数据上过拟合问题。

1、噪声的类别

(1) instance-independent label noise: 现有大部分算算法都是针对这种类型的带噪数据进行的研究建模的，因为instance-dependent 建模比较复杂。

symmetric noise: 一个标签标错为其他类别的标签概率一样
asymmetric noise: 一个标签标错为其他类别的标签概率不一样
pair noise: 一个标签只会错标为对应的另外一种标签, 标错的是在这些标签对形式存在(a, b)

(2) instance-dependent label noise

2、困难

（1）深度学习模型因为其高阶的表达方式，更容易受到label noise的影响。

3、要获得一个鲁棒性的模型，方法可以大致分为三类：

（1）设计使用好的损失函数（2）训练方式: Training architectures methods （3）减少错误标注: Label correction methods. 噪声数据比重占比在8.0% ~38.5%范围内。

4、常用概念

Label Transition

Memorization Effect

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。