前言
本文提出的想法在3.2 label noise ,指出了样本中可能存在标签噪声,而错误分类的概率矩阵通常是未知的。
本文的解决方案在4.3,找到训练集噪声标签分布~y与分类器 f对目标样本的输出分布f(xt)的最优配对方案,见eq14.
1 Introduction
在带有不准确标签的数据集上训练深度神经网络很容易过拟合到有噪声的训练集标签,并大大降低分类任务的性能。为了减轻这种影响,我们提出了一种具有熵最优运输的原始解决方案,它允许以端到端方式学习深度神经网络,在某种程度上,对不准确标记的样本具有鲁棒性。
本文的1)第一个贡献在于研究了深度神经网络对噪声标签的鲁棒性,并分析了现有鲁棒损失函数在遥感分类任务中的有效性。2)第二个贡献是基于最优运输理论(Villani, 2009)提出了一种新的鲁棒解决方案来处理标签噪声。通过将要学习的深度学习模型拟合到数据集的标签特征联合分布(关于熵正则化的最优传输距离),从而对标签噪声具有鲁棒性。我们将此方法称为熵最优输运分类损失的CLEOT方法。CLEOT方法的一个主要优势是:固有地利用了底层数据的几何结构,提出了一种随机逼近方案来解决学习问题,并允许在深度学习框架中使用我们的方法。
3 Problem formulation and noise model
3.2 Label noise
数据集中的标签噪声可以是两种类型:不对称标签噪声和对称标签噪声:
- 在非对称标签噪声中,训练集中的每个标签y 以p(~ y|y)的概率翻转到~ y,定义噪声转换矩阵,E i,j = p(~ y = j|y = i) ∀i,j,表示第i 类标签被错误分类成第 j类标签的概率,这里的E矩阵一般是未知的。因此,从联合分布观察训练样本{xi,~ yi}:
- 在对称标签噪声中,标签以概率 pe 在所有类上均匀翻转,而不考虑类之间的相似性。在这种情况下,矩阵E的对角线元素为1−pe,非对角线元素为pe/(1−c)。这个噪声模型只有一个唯一的参数。
4 Classification Loss with Entropic Optimal Transport (CLEOT)
在本节中,首先通过讨论非正则化和正则化的最优传输(OT)来介绍最优传输。接下来介绍联合分布OT,这是我们方法的出发点。
4.1 Introduction to optimal transport
OT搜索两个分布µ1和µ2之间的概率耦合T∈Π(µ1,µ2),T大小为n1×n2,T生成最小的总位移代价 wrt。一个给定的代价函数c(x1,x2),分别测量样本x1和x2在每个分布µ1和µ2的支持下的不相似性(即距离)。Π(µ1,µ2)描述了具有边缘值µ1和µ2的联合概率分布空间。
为了加快OT计算速度,Cuturi(2013)提出用正则化版本的OT来代替传统的线性规划。正则化是通过在耦合T上加上负熵正则化项来实现的,因此,所谓熵正则化的Wasserstein距离可以定义为eq.(4):
上述R(T)为T的负熵。OT矩阵T*则在eq. 6中使用额外的正则化项进行优化。
4.2 Joint distribution optimal transport
联合分布最优传输(JDOT)方法,其思想是考虑特征空间和标签空间的代数积空间上分布之间的最优传输问题,而不是只考虑特征空间的分布。源测量值µs和目标测量值µt是乘积空间X×Y上的测量值,(xs, ys),(xt, yt)分别是µs和µt的样本。此空间相关的广义gound成本可以自然地表示为输入和标签空间成本的加权组合:
c(·,·)为l22距离,L(·,·)为分类损失(如hinge或交叉熵)。此时标签ytj是未知的,寻求学习分类器 f:X→Y来估计每个目标样本的标签f(xtj),ground loss为:
JDOT会导致以下最小化问题:
其中Df依赖于f,并收集所有成对代价df(·,·),具有相似表示和公共标签(通过分类)的样本被匹配,从而产生更好的辨别能力。
4.3 Learning with noisy labels using entropy-regularized OT(使用熵正则化OT的噪声标签学习)
本文方法的主要思想是在存在噪声标签的情况下有效地学习神经网络模型f。令{xi,~ yi}, i, j = 1,…N为从p(x,~ y)观察到的样本及其相关的噪声one-hot标签,˜µ为这些样本的离散分布。我们的提议是学习生成离散分布µf的 f : 注:这里的噪声标签的意思是标签中有一部分的标签是错误的
通过以下公式学习f :
可重新表述为以下双层优化问题:
f 将被学习,以便每个样本分类f(xj)需要接近每个噪声标签~ yi。T为n1*n2耦合矩阵,可以理解为传输距离矩阵,Df为cost。
其中为T中带权重的标签的平均值,通过将每个噪声标签替换为标签的加权组合,因此可作为yj的去噪估计。我们将这种方法命名为**带有熵最优传输的分类损失CLEOT。**一定要理解!!!
Stochastic approximation of proposed method
我们提议通过对大小为m的小批量进行抽样来近似我们所提出方法的目标函数eq.(11),并使优化问题最小化:
其中期望E由随机抽样的小批运算得到,(16)仅在小批上求解。随着m的增大,优化问题收敛于eq.(11)。但小批次的期望值可能会导致不同的最小值。
为了在小批量上优化上述问题,我们利用了sinkhorn(Genevay et al,2017)算法的自动微分,快速估计熵正则化OT及其梯度的解(见算法1中的伪代码)。这种随机方法有两个主要优点:它可以扩展到大型数据集,并且可以轻松地以端到端方式集成到现代深度学习框架中。