2022-03-04-Label-Noise-Learning

本文探讨了深度学习中噪声标注数据对模型泛化能力的影响,介绍了几种应对策略,包括NAF、AUM、早停和SOP方法,旨在减少噪声标签对模型优化的负面影响,提升模型的鲁棒性。
摘要由CSDN通过智能技术生成
layout comments title categories tags description
post
true
Label Noise Learning
blog
自然语言处理
Label Noise Learning

Label Noise Learning

@(NLP)[噪声, 主动学习]

[TOC]

序言

过参数化在深度学习时代常常被提到,它的神经网络参数个数甚至超过了 training sample 的个数,在实验中也体现出了非常好的效果。但是,一旦training samples中带有一些噪声,整个模型就趋向于过拟合,没有办法很好地泛化到测试集。一般而言,training samples带噪声的方式有两种,一是在 data points上加 Gaussian noise,二是 label noise. 我们这里主要探究第二种。

存在噪声标注数据

诸如数据增强、权重衰减、dropout和批量归一化等流行的正则化技术已经被广泛应用,但是它们本身并不能完全克服在噪声数据上过拟合问题。 1、噪声的类别 (1) instance-independent label noise: 现有大部分算算法都是针对这种类型的带噪数据进行的研究建模的,因为instance-dependent 建模比较复杂。

  • symmetric noise: 一个标签标错为其他类别的标签概率一样
  • asymmetric noise: 一个标签标错为其他类别的标签概率不一样
  • pair noise: 一个标签只会错标为对应的另外一种标签, 标错的是在这些标签对形式存在(a, b) Alt text

(2) instance-dependent label noise 2、困难 (1)深度学习模型因为其高阶的表达方式,更容易受到label noise的影响。

3、要获得一个鲁棒性的模型,方法可以大致分为三类: (1)设计使用好的损失函数 (2)训练方式: Training architectures methods (3)减少错误标注: Label correction methods. 噪声数据比重占比在8.0% ~38.5%范围内。

4、常用概念

Label Transition

Alt text

Alt text

Memorization Effect

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值