layout | title | tags | categories | description | date | |||
---|---|---|---|---|---|---|---|---|
post
|
Label Noise Learning
|
|
|
Label Noise Learning
|
2022-03-04 13:05:18 -0800
|
序言
过参数化在深度学习时代常常被提到,它的神经网络参数个数甚至超过了 training sample 的个数,在实验中也体现出了非常好的效果。但是,一旦training samples中带有一些噪声,整个模型就趋向于过拟合,没有办法很好地泛化到测试集。一般而言,training samples带噪声的方式有两种,一是在 data points上加 Gaussian noise,二是 label noise. 我们这里主要探究第二种。
存在噪声标注数据
诸如数据增强、权重衰减、dropout和批量归一化等流行的正则化技术已经被广泛应用,但是它们本身并不能完全克服在噪声数据上过拟合问题。
1、噪声的类别
(1) instance-independent label noise
: 现有大部分算算法都是针对这种类型的带噪数据进行的研究建模的,因为instance-dependent 建模比较复杂。
- symmetric noise: 一个标签标错为其他类别的标签概率一样
- asymmetric noise: 一个标签标错为其他类别的标签概率不一样
- pair noise: 一个标签只会错标为对应的另外一种标签, 标错的是在这些标签对形式存在(a, b)
(2) instance-dependent label noise
2、困难
(1)深度学习模型因为其高阶的表达方式,更容易受到label noise的影响。
3、要获得一个鲁棒性的模型,方法可以大致分为三类:
(1)设计使用好的损失函数 (2)训练方式: Training architectures methods (3)减少错误标注: Label correction methods. 噪声数据比重占比在8.0% ~38.5%范围内。