layout | comments | title | categories | tags | description | ||
---|---|---|---|---|---|---|---|
post
|
true
|
Label Noise Learning
|
|
|
Label Noise Learning
|
Label Noise Learning
@(NLP)[噪声, 主动学习]
[TOC]
序言
过参数化在深度学习时代常常被提到,它的神经网络参数个数甚至超过了 training sample 的个数,在实验中也体现出了非常好的效果。但是,一旦training samples中带有一些噪声,整个模型就趋向于过拟合,没有办法很好地泛化到测试集。一般而言,training samples带噪声的方式有两种,一是在 data points上加 Gaussian noise,二是 label noise. 我们这里主要探究第二种。
存在噪声标注数据
诸如数据增强、权重衰减、dropout和批量归一化等流行的正则化技术已经被广泛应用,但是它们本身并不能完全克服在噪声数据上过拟合问题。 1、噪声的类别 (1) instance-independent label noise
: 现有大部分算算法都是针对这种类型的带噪数据进行的研究建模的,因为instance-dependent 建模比较复杂。
- symmetric noise: 一个标签标错为其他类别的标签概率一样
- asymmetric noise: 一个标签标错为其他类别的标签概率不一样
- pair noise: 一个标签只会错标为对应的另外一种标签, 标错的是在这些标签对形式存在(a, b)
(2) instance-dependent label noise
2、困难 (1)深度学习模型因为其高阶的表达方式,更容易受到label noise的影响。
3、要获得一个鲁棒性的模型,方法可以大致分为三类: (1)设计使用好的损失函数 (2)训练方式: Training architectures methods (3)减少错误标注: Label correction methods. 噪声数据比重占比在8.0% ~38.5%范围内。
4、常用概念
Label Transition
Memorization Effect