20220304-label-noise-learning

本文探讨了深度学习模型在噪声标注数据上的过拟合问题,特别是标签噪声的影响。研究了噪声的类别,如对称、非对称和配对噪声,以及深度学习模型对此的敏感性。提出了解决方案,包括设计损失函数、训练策略和错误标注修正方法。文献调研部分介绍了NAF、AUM、早停策略以及SOP等方法,这些方法通过识别和减轻噪声样本的影响,提高模型的泛化能力。
摘要由CSDN通过智能技术生成
layout title tags categories description date
post
Label Noise Learning
NLP
ML
paper
Label Noise Learning
2022-03-04 13:05:18 -0800

序言

过参数化在深度学习时代常常被提到,它的神经网络参数个数甚至超过了 training sample 的个数,在实验中也体现出了非常好的效果。但是,一旦training samples中带有一些噪声,整个模型就趋向于过拟合,没有办法很好地泛化到测试集。一般而言,training samples带噪声的方式有两种,一是在 data points上加 Gaussian noise,二是 label noise. 我们这里主要探究第二种。

存在噪声标注数据

诸如数据增强、权重衰减、dropout和批量归一化等流行的正则化技术已经被广泛应用,但是它们本身并不能完全克服在噪声数据上过拟合问题。

1、噪声的类别

(1) instance-independent label noise: 现有大部分算算法都是针对这种类型的带噪数据进行的研究建模的,因为instance-dependent 建模比较复杂。

  • symmetric noise: 一个标签标错为其他类别的标签概率一样
  • asymmetric noise: 一个标签标错为其他类别的标签概率不一样
  • pair noise: 一个标签只会错标为对应的另外一种标签, 标错的是在这些标签对形式存在(a, b) Alt text

(2) instance-dependent label noise

2、困难

(1)深度学习模型因为其高阶的表达方式,更容易受到label noise的影响。

3、要获得一个鲁棒性的模型,方法可以大致分为三类:

(1)设计使用好的损失函数 (2)训练方式: Training architectures methods (3)减少错误标注: Label correction methods. 噪声数据比重占比在8.0% ~38.5%范围内。

4、常用概念

Label Transition

Alt text

Alt text

Memorization Effect

以下是三篇近三年关于图像分类的外文文献和相关代码地址: 1. 论文题目:"Dual Attention Network for Scene Segmentation" 论文作者:Jun Fu, Jing Liu, Haijie Tian, Zhiwei Fang, and Hanqing Lu 期刊/会议:CVPR 2019 论文简介:本文提出了一种基于双重注意力机制的图像分类方法,称为Dual Attention Network(DAN)。该方法可以有效地捕捉图像中的全局和局部信息,并在场景分割任务中实现了最先进的性能。此外,本文还提出了一种新的注意力损失函数,用于训练DAN。 代码地址:https://github.com/junfu1115/DANet 2. 论文题目:"A Stronger Baseline for ImageNet Classification" 论文作者:Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, and Kaiming He 期刊/会议:CVPR 2020 论文简介:本文提出了一种新的图像分类网络,称为Swin Transformer。该网络基于Transformer架构,并在ImageNet数据集上实现了最先进的性能。Swin Transformer具有更高的计算效率和更好的可扩展性,可以应用于各种计算机视觉任务。 代码地址:https://github.com/microsoft/Swin-Transformer 3. 论文题目:"Self-Label-Cleaner: Label Noise Detection and Joint Learning with Clean Labels" 论文作者:Jiequan Cui, Hua Yang, Yuzhuo Ren, and Hongkai Xiong 期刊/会议:ICCV 2021 论文简介:本文提出了一种新的图像分类方法,称为Self-Label-Cleaner(SLC)。该方法可以检测和修复标签噪声,并在深度神经网络中实现联合学习。SLC采用一种基于特征相似度的标签清洗方法,可以在不需要额外标注的情况下提高图像分类的准确率。 代码地址:https://github.com/JiequanCui/Self-Label-Cleaner
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值