2022.6.23
噪声标签
在有监督学习过程中,大量的准确标注的样本训练样本至关重要。但在实际应用过程中,标记数据往往需要大量的人力,物力财力。标注的数据质量某种程度上还受到人为主观因素的影响,导致实际获取的标注样本时常含有不定比例的标签噪声。然而,实验发现DNN在网络训练过程中,总是会学到标签噪声中的信息,对网络的性能带来干扰。为此,如何能够对标签噪声样本进行合理训练避免标签噪声对网络模型的训练带来干扰是近几年的又一个热门研究话题。
现有的解决噪声标签的问题有基于 robust regularization, label correction, loss reweighting, 和 robust loss functions 等。
Deep Label Distribution Learning With Label Ambiguity
在这篇论文里首先提出了用label distribution代替原始的noisy label用于模型训练。soft label和hard label的概念如果要追溯可以追溯到更早,比如Hinton在15年提出的蒸馏,文中就使用了从教师模型得到的输出经过平滑得到的soft label去指导学生模型训练。Deep Label Distribution Learning(简称DLDL)这篇文章则主要针对于部分应用场景中的标签模糊情况,文中举了4个例子:年龄预测、头部姿态预测、多标签分类、语义分割。
在以上提到场景中,由于标签模糊引入的脏数据几乎无可避免,如年龄预测中,25岁的人脸与24/26岁几乎不存在差异,使用原始的one-hot标签则无法表示这些边界模糊的标签之间的联系。因此希望类别相关性强弱能够从label本身体现出来,文中提出了使用label distribution代替one-hot label的做法及其相应的训练方法。
label distribution即把标签看成是在不同类别间的离散分布,有点类似于CNN的最终输出向量(经过了softmax),在不同类别间有一个置信度。假设网络的输出向量为
y
^
\pmb{\hat{y}}
y^y^y^,
y
^
\pmb{\hat{y}}
y^y^y^的第
k
k
k个元素为
y
^
k
\hat{y}_k
y^k,标签分布向量为
y
\pmb{y}
yyy ,
y
\pmb{y}
yyy 的第
k
k
k 个元素为
y
k
y_k
yk,论文中以Kullback-Leibler (KL) divergence来表示两个向量之间的相似程度,以
θ
∗
\pmb{\theta^*}
θ∗θ∗θ∗ 表示最佳模型参数,则有:
变形一下得:
所以KL loss为:
2022.6.24
Label Distribution for Learning with Noisy Labels
深度神经网络(DNNs)的性能关键依赖于标记的质量。在某些情况下,标签很容易被损坏,因此成为嘈杂的标签。设计处理有噪声标签的算法对于学习鲁棒的DNNs具有重要意义。然而,很难区分噪声标签和清洁标签,这成为许多方法的瓶颈。为了解决这一问题,本文提出了一种新的基于标签分布的置信度估计方法(LDCE)。LDCE根据标签分布估计观察到的标签的置信度。然后,根据置信度分数,干净标签和有噪声标签之间的边界变得清晰。
LDCE通过少量的可信样本来估计标签的置信度,即具有干净标签的样本。在这种情况下,训练数据被分为两组,即一个有几个可信样本的集合和另一个有大量不受信样本的集合。LDCE在可信样本的指导下,通过测量特征空间的相似性,即从特征编码器获得的嵌入空间,为每个可信样本生成LD。然后,可以从LD中得到所观察到的标签的置信度得分。在获得标签置信度后,可以从不置信集中选择置信度得分高的样本,本文称为纯化数据。
Confidence Estimation
为了从损坏的数据中获得准确的标签置信度,训练一个可靠的特征编码器来进行相似度计算是很重要的。论文设计了一个统一的学习框架来估计标签置信度,并学习一个可靠的特征编码器。
Label Distribution Generation
首先从训练数据中进行采样,得到一个支持集和两个查询集。然后计算实例
x
i
x_i
xi 和
j
j
j 类的membership degree:
S
j
S_j
Sj 表示支持集中第
j
j
j 类的样本,
s
i
j
s_{ij}
sij 表示实例
x
i
x_i
xi 和
x
j
x_j
xj之间的相似性得分。
然后将不同类的membership degree归一化为标签分布:
在获得标签分布后,根据迭代更新标签置信度
c
i
c_i
ci: