[论文笔记03] Review–A Survey of Learning from Noisy Labels

本文探讨了在大数据集中噪声标签的来源、类型及其对深度学习模型的影响。重点介绍了现有的噪声标签学习方法,如损失校正、网络结构优化和样本选择策略。尽管理论上有进展,但在处理现实世界复杂噪声时,现有方法的表现仍需提升。
摘要由CSDN通过智能技术生成

原文:https://iopscience.iop.org/article/10.1149/2754-2726/ac75f5/pdf

Introduction

高质量大数据集少的原因:

  1. 大规模数据集的构建非常耗时且需要大量劳动力。
  2. 一些专业领域的样本由于数据模糊性而难以标注,甚至专家也难以达成共识。

 解决第一个问题的方法:

  1. 爬虫技术,根据相关描述文本和标签自动标记样本
  2. 另一种方法是亚马逊的 Mechanical Turk。

这两个方法都不可避免地引入噪声。不幸的是,现有的正则化方法,例如数据增强、权重衰减、丢失和批量归一化并不能很好地缓解深度模型过度拟合噪声标签的问题。

argmin_\theta \sum_{i=0}^{n}L(f_\theta (x_i),y_i) 

 为了减轻噪声标签造成的危害,本质的想法是让深度模型通过耐噪声的训练策略找到θ*。


 Sources and types of noisy label

Sources of noisy label

1.有些数据由于自身的模糊性注释者的认知偏差而被错误标记。

  • 由于认知偏差,注释者可能会给样本赋予不一致的标签,最终投票决定。
  • 即使对于专家来说,模糊的数据也很难仅归为一类。

2.  爬虫,标签通常来自周围的文本。由于语义模糊,一些噪声标签与数据本身有些相关。这种相关性会将词汇外的噪声引入数据集中。

Types of noisy label

 Artificial noise types

 simulate the realistic noise in real world.

1.Pair Noise 

Pair noise是按照固定的比例在相邻两个类别之间翻转标签。这种噪声类型是在噪声标签研究的早期设计的,模拟了标签在相似的类对之间错误翻转的场景。由于不考虑类之间的相似性,近年来的研究中成对噪声逐渐被非对称噪声所取代。图 1(a) 显示了噪声率为 40% 的示例。第一类中60%的数据保留其原始标签,其余40%数据的标签转移到第二类。

行代表数据的正确类标签,列代表给定的标签。

2.Symmetric Noise 

Symmetric noise is also known as uniform noise. 它保留了一定比例的原始标签,其余的均匀翻转到其他类别(equally distribute into the other categories)。这种噪声类型旨在模拟现实世界中的随机噪声,这通常是由网页抓取或手动注释的随机错误引起的。它没有考虑类之间的相似性。

优点:合成数据集的优点是可以精确控制噪声率和噪声类型。它帮助我们从不同的角度有效地评估噪声标签学习方法。然而,合成噪声标签数据的分布与现实世界的分布不同

3.Asymmetric Noise 

非对称噪声根据给定的相似类对翻转标签。它旨在更好地模拟现实世界的噪声标签。例如,CIFAR-10 数据集中的类对:卡车 → 汽车、鸟 → 飞机、鹿 → 马; MNIST 数据集中的类对:2 → 7、3 → 8、7 → 1 和 5 → 6。与配对噪声类似,这种噪声类型旨在模拟现实世界中由样本模糊性引起的噪声标签。当注释者在标签注释过程中无法很好地区分两个类时,他们可能会错误地标记样本,例如,人们很容易将海豚的图片错误地标记为鲸鱼。图 1c 显示了示例。第一类原有标签的 60% 保留,其余 40% 标签转移到第三类。它与其他类别类似。 

Real-world Noise 

Real-world Noise又分为in-distribution noise and out-of-distribution noise.

对于in-distribution noise,所有数据及其标签都在该数据集的范围内;对于out-of-distribution noise,错误标记样本的真实标签不包含在原始数据集的范围内。

Controlled Web Label Noise 

旨在模拟现实世界的噪声。它首先通过谷歌图像搜索从两个来源收集带有不正确网络标签的数据:文本到图像和图像到图像。然后,对与测试数据集中的图像相似的图像进行去重后,用收集的噪声数据替换 p% 的原始训练样本,其中 p ∈ [0, 100]。与对称噪声类似,p 在各个类别中是均匀的这种噪声类型与真实正图像的相似度较高,并且可以自由控制噪声率。 


 Existing Methods of Noisy Label Learning

Loss correction

直接修改(或调整)损失

优点:可以用于任何模型

方法:他们通常在损失函数中添加正则化项来惩罚低置信度预测(可能与噪声样本有关),或者通过乘以估计的标签转移矩阵来纠正网络预测。

1.Estimating the noise transition matrix

constructs a noise transfer matrix to determine the probability of noise transfer between different classes, which is applied when calculating the cross-entropy loss. It will adjust the loss by multiplying the estimated noise transition matrix with the softmax output during forward propagation.

  • Krishna Menon A、Nock R 和 Qu L [7] 使用预训练模型估计该矩阵。它首先进行没有损失校正的预训练,并使用网络的 softmax 输出来估计噪声转移矩阵。然后,重新训练模型并根据估计的噪声转移矩阵进行损失校正。
  • Hendrycks D、Mazeika M、Wilson D 和 Gimpel K [10] 使用干净的验证集来计算转移矩阵,而 Sukhbaatar S 和 Fergus R [11] 则建议利用从干净数据和噪声数据计算出的转移矩阵之间的差异。
  • Lee H、Anguelov D、Szegedy C、Erhan D 和 Rabinovich A [12] 使用转换矩阵与正则化损失相结合,该损失同时使用噪声标签和模型预测的标签。
  • Goldberger J 和 Ben-Reuven E [13] 使用期望最大化 (EM) 算法来找到网络和噪声的最佳参数。
  • Dual-T 方法 [14] 通过两步估计噪声传递矩阵来简化问题。首先,估计从干净标签到中间类别标签(网络预测标签)的混淆转移矩阵,其次估计从中间类别标签到噪声标签的混淆转移矩阵。

2. Robust loss function

在计算损失值时修改或降低标签可能不正确的样本的损失。这些方法侧重于设计新的损失函数,旨在从数学上降低反向传播期间噪声标签的影响。

  • Manwani N 和 Sastry P S [15] 表明,0-1 损失比常用的凸损失(例如平均绝对误差(MAE)、改进的 MAE(这是一种加权的 MAE))更具噪声容忍度。从数学的角度来看,这是二元分类问题中损失函数的充分条件。
  • 广义交叉熵 (GCE)16 损失将 Box-Cox 变换应用于概率(概率的幂函数)。
  • 受 KL 的启发,Symmetric Cross-Entropy [18] 的作者发现传统的交叉熵损失存在以下问题:(1)交叉熵的值仅取决于真实类别的概率。 (2)简单样本更容易被学习(并且在高噪声下过拟合)。为了解决这个问题,作者在传统的交叉熵损失中添加了反向交叉熵项。
  • APL [19]将现有的损失函数分为“主动”和“被动”,分别用于训练的不同阶段。
  • 除了上述基于距离的损失函数外,基于信息熵的损失函数也取得了不错的效果。例如,函数L_DMI [20]不仅信息单调,而且相对不变。

3. Robust network structure

抗噪声网络结构通过设计特定的层或分支来处理噪声标签,这可以促进网络识别或纠正噪声标签。

  • Lee K H、He X、Zhang L 和 Yang L 提出了使用预定义参考子集的 CleanNet [21]。使用自动编码器提取参考子集的视觉特征,并将每个新的训练样本与参考集中的特征进行比较。根据距离,为每个训练样本设置权重,并计算加权交叉熵。此方法使用自动编码器从每个类中学习原型。对于每个输入,计算输入和类原型之间的距离以确定其类别。同时,该方法可以验证输入是否有噪声,并对有噪声的输入给予较低的权重
  •  MetaCleaner [22]将传统的训练过程分为两个步骤:(1)通过网络估计每个样本的置信度。 (2)通过聚合置信度分数生成一组干净的训练样本。
  • ClothingNet [23] 为网络设置了多项任务。它要求网络能够预测输入的类别和噪声类型。然后,它将根据噪声类型预测计算每个样本的后验概率。
  • Self-learning [24]在网络中加入了一个额外的聚类模块,它可以估计类原型并根据数据特征和类原型之间的相似性重新标记训练数据。
  • SIGUA [25]不仅可以估计噪声传递矩阵,还可以调整每批中干净标签数据的梯度,以逐渐降低噪声标签数据的学习率。

4. Correction of noisy labels 

  • 受神经网络认知连续性的启发,SELF [24] 认为噪声标记数据与干净数据具有相同的特征分布。因此,可以通过基于每个时期的训练数据的模型的累积预测来逐渐纠正噪声标签。在每次迭代中,都会使用校正后的标签来训练更新的模型。它使用校正后的标签进行训练并减少噪声标签的影响。 
  • P-correction(PENCIL)[26] 试图通过将伪标签(校正后的标签)视为独立参数来获得更准确的伪标签,该参数在训练期间更新(就像网络参数一样)。然而,该方法在更新过程中针对所有训练数据。这使得网络经常错误地将真实标签“纠正”为不正确的伪标签。(不足)
  • Joint-optimization [27] 使用单个网络同时训练和纠正噪声标签。为了降低错误校正的可能性,它在损失函数上添加了正则化。
  • ELR [28]表明网络在早期训练阶段不会过度拟合噪声标签,然后添加正则化以防止网络记住噪声标签。

 Sample selection

 样本选择的一个显着特点是,它在训练之前将训练数据显式地分为干净子集和噪声子集。然后,网络分别在两个子集上进行训练。常用的划分数据的标准有:Small-loss criterion,[6] Gaussian mixture model GMM,[29,30] Bayesian mixture model BMM,[29] etc.

根据过滤子集的训练策略不同,又分为Non-Combined and Combined methods.

 Non-Combined

This kind of methods focuses on utilizing the clean data for training.

  • De Couple [31]提出在训练过程中将“如何更新”的问题解耦到“何时更新”的问题。基于网络信息不一致的情况,所提出的更新策略首先随机初始化两个网络,并在后续训练过程中仅当两个网络不一致时才进行更新。
  • Co-teaching [6] is a representative method based on the idea of Co-training.[32] This method will maintain two networks. During training, each network calculates the losses and selects a certain number of small-loss samples. Then, one network feeds the selected samples to another network for further training. This method considers the data with smaller losses as clean data. It only uses the clean ones for training to avoid the negative effect of noisy labels.
  • 另一方面,Mandal D、Bharadwaj S和Biswas S [33]将自监督的思想添加到Co-teaching中,以提高干净数据的分类精度。这进一步提高了干净子集的质量,并带来更好的模型性能。
  • Inspired by Co-teaching and Decouple, Jo-CoR [34] introduces the ”agreement” idea for two networks. It assumes that different models trained on the same dataset will agree on most of the clean samples but likely disagree on noisy labeled samples.[35,36] This idea improves the quality of data filtering. To regularize the ”agreement”, a contrast loss (JS divergence) is applied between the two networks. Finally, it filters out the clean data based on the small-loss criterion.
  • MentorNet [37] applies the idea of course learning (Motivated by human learning models) to two networks (one teacher and one student) to achieve a progressive learning from easy data to difficult data that may have incorrect labels.

 Combined

此类方法首先将数据集分为干净子集和噪声子集。然后,他们将使用不同的训练策略来使用它们,而不是丢弃噪声子集。大多数针对噪声子集的训练策略都是基于半监督学习。它将嘈杂的标记数据视为未标记数据。由于已经有许多成熟的半监督学习方法,组合方法通常侧重于更有效的数据过滤算法以取得更好的结果。

  • Also inspired by the Co-training,32 DivideMix30 uses Gaussian mixture model to separate clean samples and noise-labeled samples. It treats noise-labeled samples as unlabeled data and training them with MixMatch38 which is an excellent algorithm in semi-supervised learning for training.
  • DSOS39 uses the entropy of the interpolation of prediction and given label to distinguish clean, in-distribution (ID) noise and out-of-distribution (OOD) noise. Then, it corrects the labels for ID samples and proposes a dynamic softening strategy for OOD samples to lower the harm of noisy labels.

Public Dataset 

大多数方法都在其上验证对称噪声和非对称噪声,噪声率往往在20%到80%之间变化。

Symmetric datasets

  1. CIFAR-10包括10个类,每个类有5,000张训练图像和1,000张测试图像。图像尺寸为32×32。
  2. CIFAR100包括10个超类,1个超类有10个子类。每个子类有 500 张训练图像和 100 张测试图像。图像大小与CIFAR-10相同。
  3. The Red Mini-ImageNet is a recent benchmark of controlled web-crawled datasets for coarse-grained image classification provided by Jiang L, Huang D, Liu M and Yang W. [42] It provides various ratios of web-crawled noises which contains both In-vocabulary and Out-vocabulary noises. This dataset has images of size 84×84 with 100 classes from ImageNet.

 Real-world datasets

最有代表性的是 Food-101N, Clothing1M 和 WebVision1.0

  1. Clothing1M 包含 14 个类别,其中包括从在线购物网站获取的 100 万张训练图像,以及由卖家提供的周围文本生成的标签。该数据集的图像大小不统一。通常,将图像大小调整为 256 × 256 进行训练。该数据集是唯一一个具有较为完整的噪声传递矩阵信息的数据集。Figure 2 shows the complicated noise distribution of Clothing1M. It contains noise type like pair noise, such as Windbreaker, Chiffon and Shirt, etc. It also includes some noise type similar to symmetric noise, such as Hoodie, T-Shirt, Dress and Vest. Besides, it contains some radome noise distribution which does not belong to pair, symmetric or asymmetric type. For example, almost each class has 1% of samples that flip their labels to unrelated classes.

  2. Food101-N 是一个大型图像数据集,包含约 310 009 个训练图像和 25, 000 个食品食谱测试图像,分为 101 类。与 Clothing1M 数据集类似,图像大小调整为 256×256 进行训练。它基于 Food101 数据集,但具有更多图像和更高的噪声率(20%)。
  3. WebVision 是一个大型数据集,包含使用 ImageNet ILSVRC12. 中的 1,000 个概念从网络收集的 240 万张图像。图像也有不同的大小,然后通常将大小调整为 256×256 进行训练。其估计噪声率约为20%。为了便于与其他方法进行比较,测试子集仅包含前 50 个类。

Results of State-of-the-Art Methods 

噪声标签学习方法在CIFAR数据集中的对称标签噪声上的性能近年来逐渐提高。虽然损失校正方法理论上可以保证模型训练的收敛性。模型训练的不稳定性会显着降低其性能。相反,样本选择方法显示出相当大的有效性。一半以上最好的方法都属于这种方法。这表明在训练前过滤掉噪声标记数据并提高干净子集的质量是更有效的策略。

此外,另一个有用的策略是通过数据增强、半监督方法和无监督方法等来利用噪声子集。因为这些方法还可以从噪声标记数据中学习某些有用的信息,以减轻对此类数据的过度拟合。

对于现实世界的噪声,比对称噪声复杂的多(相似性)。由于现有方法很少能够有效处理如此复杂的情况,因此它们在现实数据集上的表现通常比模拟噪声数据集差,同时,它们之间的性能差异并不显着。

a promising research direction 

  • 29
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
学习邻居一致性是一种用于处理噪声标签的方法。在现实中,数据集中的标签常常会受到一些错误或噪声的影响,这会对模型的训练和泛化能力造成不利影响。而学习邻居一致性则通过考虑样本的邻居关系来进一步提高模型的鲁棒性。 学习邻居一致性方法的核心思想是基于数据的局部性原理,即相似的样本倾向于具有相似的标签。该方法通过比较样本的标签,检测和修复噪声标签,并将不确定性信息引入模型训练过程中。 具体而言,学习邻居一致性方法会首先构建一个样本的邻居图,其中每个样本的邻居是根据特征相似性确定的。然后,该方法会使用邻居信息来计算每个样本的标签一致性得分。通过比较样本自身的标签和邻居的标签,可以有效地检测和纠正噪声标签。 在模型的训练过程中,学习邻居一致性方法会引入一个邻居一致性损失函数,用于最大化样本与其邻居的标签一致性得分。这样,模型会倾向于对邻居们的标签一致性进行学习,从而提高模型的鲁棒性和泛化能力。 总而言之,学习邻居一致性方法通过考虑样本的邻居关系来处理噪声标签。它通过检测和修正噪声标签,引入不确定性信息,并最大化标签一致性得分来提高模型的鲁棒性。这种方法在处理噪声标签方面具有一定的优势,并可在实际应用中取得良好的效果。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值