噪音标签工作总结

噪声标签工作介绍

假设图像被分为了 C C C个类, X ∈ R d X\in R^{d} XRd为图像的特征空间(feature space), Y = { 1 , 2 , ⋯   , C } Y=\{1,2,\cdots,C\} Y={1,2,,C}为标签空间(label space)。具有真实标签的数据集 D \mathcal{D} D中有 n n n个训练样本,每一个训练样本表示为 ( x k , y k ) ∈ ( X × Y ) , k = 1 ⋯ n (x_k,y_k)\in(X\times Y),k=1\cdots n (xk,yk)(X×Y),k=1n,其中 y k y_k yk x k x_k xk的真实标签。样本 x k x_k xk的真实标签 y k y_k yk因为某些原因(比如人为标注错误)被转化为了噪声标签 y ~ k \tilde{y}_{k} y~k

我们将噪声标签的产生过程(corruption process)抽象为一个函数 F N ( ⋅ ) F_{N}(\cdot) FN(),这个函数作用在具有真实标签的数据集 D \mathcal{D} D以下称为干净数据集)上(该数据集的所有样本均具有真实的,正确的标签)产生具有噪声标签的数据集 D ~ \tilde{\mathcal{D}} D~以下称为噪声数据集),如下:

D ~ = F N ( D ) \tilde{\mathcal{D}}=F_{N}(\mathcal{D}) D~=FN(D)

这个函数有两个重要的参数:

1️⃣噪声率 φ \varphi φ

噪声率 φ \varphi φ表示干净数据集 D \mathcal{D} D中有 φ ∗ n \varphi*n φn个样本的标签被转化为了错误的标签,其余 ( 1 − φ ) ∗ n (1-\varphi)*n (1φ)n个样本的标签仍然是正确的,其中 φ ∈ [ 0 , 1 ] \varphi\in[0,1] φ[0,1]

2️⃣真实标签转化为噪声标签的转化概率(corruption probability ρ \rho ρ

一般地,样本 x k x_k xk的真实标签 y k = i , i ∈ Y y_k=i,i\in Y yk=i,iY转化为噪声标签 y ~ k = j , j ∈ Y \tilde{y}_{k}=j,j\in Y y~k=j,jY的概率可以表示为 ρ i j ( x k ) = p ( y ~ k = j ∣ y k = i , x k ) {\rho}_{ij}(x_k)=p(\tilde{y}_{k}=j|y_{k}=i,x_{k}) ρij(xk)=p(y~k=jyk=i,xk)

标签噪声的分类

Instance-independent Label Noise

真实标签 i i i转化为噪声标签 j j j的概率与具体的哪个样本无关,此时的转化概率 ρ \rho ρ可以直接写成:

ρ i j = p ( y ~ = j ∣ y = i ) \rho_{ij}=p(\tilde{y}=j|y=i) ρij=p(y~=jy=i)

此时, C C C个类之间的转化可以表示为噪声转移矩阵(noise transition matrix T \mathrm{T} T T \mathrm{T} T中的每一个元素 T i j = ρ i j \mathrm{T}_{ij}=\rho_{ij} Tij=ρij,表示真实标签 i i i转化为噪声标签 j j j的概率。例如,当 C = 3 C=3 C=3时, T \mathrm{T} T可以表示为:

T = [ ρ 11 ρ 12 ρ 13 ρ 21 ρ 22 ρ 23 ρ 31 ρ 32 ρ 33 ] \mathrm{T}=\begin{bmatrix}\rho_{11}&\rho_{12}&\rho_{13}\\\rho_{21}&\rho_{22}&\rho_{23}\\\rho_{31}&\rho_{32}&\rho_{33}\end{bmatrix} T= ρ11ρ21ρ31ρ12ρ22ρ32ρ13ρ23ρ33

其中 ρ i j ∈ [ 0 , 1 ] \rho_{ij}\in[0,1] ρij[0,1] ∑ j = 1 3 ρ i j = 1 \sum_{j=1}^3\rho_{ij}=1 j=13ρij=1

1️⃣symmetric(or uniform

真实标签 i i i相同的概率转化为其它标签 j j j j ≠ i j\neq i j=i)。此时的噪声转移矩阵 T \mathrm{T} T表现为一个对称矩阵,即 T ⊤ = T \mathrm{T}^{\top}=\mathrm{T} T=T。在噪声率为 φ , φ ∈ [ 0 , 1 ] \varphi,\varphi\in [0,1] φ,φ[0,1]的情况下, T \mathrm{T} T中的每一个元素为:

∀ i = j T i j = 1 − φ ∧ ∀ i ≠ j T i j = φ C − 1 \forall_{i=j}\mathrm{T}_{ij}=1-\varphi\wedge\forall_{i\neq j}\mathrm{T}_{ij}=\frac{\varphi}{C-1} i=jTij=1φi=jTij=C1φ

以下为噪声率 φ = 0.4 \varphi=0.4 φ=0.4的噪声转移矩阵:

r8fyaa.png

2️⃣asymmetric(or label-dependent

真实标签 i i i更可能转化为其它特定的某个标签 j j j j ≠ i j\neq i j=i)。此时, T \mathrm{T} T中的每一个元素为:

∀ i = j T i j = 1 − φ ∧ ∃ i ≠ j , i ≠ k , j ≠ k T i j > T i k \forall_{i=j}\mathrm{T}_{ij}=1-\varphi\wedge\exists_{i\neq j,i\neq k,j\neq k}\mathrm{T}_{ij}>\mathrm{T}_{ik} i=jTij=1φi=j,i=k,j=kTij>Tik

上式的后半部分: ∃ i ≠ j , i ≠ k , j ≠ k T i j > T i k \exists_{i\neq j,i\neq k,j\neq k}\mathrm{T}_{ij}>\mathrm{T}_{ik} i=j,i=k,j=kTij>Tik就是在表达:比起标签 k k k,真实标签 i i i更有可能转化为 j j j。举例来说,一只“狗🐶”有较大可能被混淆为一只“猫🐈”,而只有较小的可能被混淆为一条“鱼🐟”。

8knyn1.png

特别地,存在一种更严苛的情况(pair noise),那就是真实标签 i i i只可能转化为某一特定的标签 j j j j ≠ i j\neq i j=i),完全没有可能转化为除 i , j i,j i,j外的其它标签。此时 T \mathrm{T} T中的每一个元素为:

∀ i = j T i j = 1 − φ ∧ ∃ i ≠ j T i j = φ \forall_{i=j}\mathrm{T}_{ij}=1-\varphi\wedge\exists_{i\neq j}\mathrm{T}_{ij}=\varphi i=jTij=1φi=jTij=φ

duli5k.png

Instance-dependent Label Noise

这种是更为一般的情况,标签的转换不仅与类标签(class labels)有关,还与数据特征(data features)本身有关,标签转化概率 ρ \rho ρ可以写成(每个类下的每个样本都有自己的一组标签转化概率):

ρ i j ( x k ) = p ( y ~ k = j ∣ y k = i , x k ) {\rho}_{ij}(x_k)=p(\tilde{y}_{k}=j|y_{k}=i,x_{k}) ρij(xk)=p(y~k=jyk=i,xk)

不同的克服噪声标签的方法

以下是对不同的克服噪声标签的方法的分类,可以利用这些方法对深度神经网络(DNNs)进行对噪声标签鲁棒的训练(robust training):

nufpnh.png

网络结构优化(robust architecture)

许多研究对干净数据集 D \mathcal{D} D噪声化的过程,也即噪声标签产生的过程(函数表达为 F N ( ⋅ ) F_N(\cdot) FN())进行建模。为了建模 F N ( ⋅ ) F_N(\cdot) FN(),它们要么选择在原有的基础结构(base model)上进行修改,1️⃣在 s o f t m a x \mathrm{softmax} softmax层上添加噪声适应层(Noise Adaptation Layer,2️⃣要么选择设计新的专用网络架构(Dedicated Architecture。通过这些变化,所得到的架构可以利用估计的转化概率 ρ \rho ρ对深度神经网络(DNNs)的输出结果进行调整,从而实现了更好的泛化效果。

  • Noise Adaptation Layer

    Noise Adaptation Layer通过一个深度神经网络(DNN)来模仿标签转化的过程。其实就是通过DNN来建模 F N ( ⋅ ) F_N(\cdot) FN()的转化概率 ρ ( x ) \rho(x) ρ(x)

    The noise adaptation layer is intended to mimic the label transition behavior in learning a DNN.

    对于一个样本 x x x,其噪声标签后验概率可以表达为:

    p ( y ~ = j ∣ x ) = ∑ i = 1 C p ( y ~ = j , y = i ∣ x ) = ∑ i = 1 C ρ ( x ) p ( y = i ∣ x ) , w h e r e ρ ( x ) = p ( y ~ = j ∣ y = i , x ) . \begin{aligned}p(\tilde{y}=j|x)&=\sum_{i=1}^Cp(\tilde{y}=j,y=i|x)=\sum_{i=1}^C\rho(x)p(y=i|x),\\&\mathrm{where}\quad\rho(x)=p(\tilde{y}=j|y=i,x).\end{aligned} p(y~=jx)=i=1Cp(y~=j,y=ix)=i=1Cρ(x)p(y=ix),whereρ(x)=p(y~=jy=i,x).

    p ( y ∣ x ; Θ ) p(y|x;\Theta) p(yx;Θ)为具有 s o f t m a x \mathrm{softmax} softmax输出层的base Model的输出,样本 x x x被预测为其噪声标签 y ~ \tilde{y} y~的概率可以写成:

    p ( y ~ = j ∣ x ; Θ , W ) = ∑ i = 1 C p ( y ~ = j , y = i ∣ x ; Θ , W ) (4) = ∑ i = 1 C p ( y ~ = j ∣ y = i , x ; W ) ⏟ Noise Adaptation Layer p ( y = i ∣ x ; Θ ) ⏟ Base Model . \begin{aligned} p(\tilde{y}=j|x;\Theta,\mathcal{W})& =\sum_{i=1}^Cp(\tilde{y}=j,y=i|x;\Theta,\mathcal{W}) \\ &&\text{(4)} \\ &=\sum_{i=1}^C\underbrace{p(\tilde{y}=j|y=i,x;\mathcal{W})}_{\text{Noise Adaptation Layer}}\underbrace{p(y=i|x;\Theta)}_{\text{Base Model}}. \end{aligned} p(y~=jx;Θ,W)=i=1Cp(y~=j,y=ix;Θ,W)=i=1CNoise Adaptation Layer p(y~=jy=i,x;W)Base Model p(y=ix;Θ).(4)

    其中 W \mathcal{W} WNoise Adaptation Layer的参数。当噪声标签 y ~ \tilde{y} y~与输入 x x x条件独立(conditionally independent)的时候,也就是Instance-independent Label Noise的情况,上述Noise Adaptation Layer可以写成(真实标签 i i i转化为哪一个噪声标签 j j j与具体哪一个样本 x x x无关):

    p ( y ~ = j ∣ y = i , x ; W ) = p ( y ~ = j ∣ y = i ; W ) ⏟ Noise Adaptation Layer p(\tilde{y}=j|y=i,x;\mathcal{W})=\underbrace{p(\tilde{y}=j|y=i;\mathcal{W})}_{\text{Noise Adaptation Layer}} p(y~=jy=i,x;W)=Noise Adaptation Layer p(y~=jy=i;W)

    y ~ \tilde{y} y~ and x x x are said to be conditionally independent given y y y, written symbolically as: ( y ~ ⊥  ⁣ ⁣ ⁣ ⊥ x ∣ y ) (\tilde{y}\perp\!\!\!\perp x\mid y) (y~xy).

    使用Noise Adaptation Layer进行噪声建模的过程如下:

    yxnb3f.png

    1️⃣在测试阶段,Noise Adaptation Layer被移除,仅使用Base Model进行判断。

    2️⃣这种方法对待所有样本都一视同仁,不能找出那些被错误标签的样本。

    3️⃣在噪声率较高时,转化概率(或者说噪声转移矩阵)的估计误差较大。

正则化(Regularization)约束

提到正则化(Regularization),我们可能想到data augmentationweight decaydropoutbatch normalization等被广泛应用的方法。这些经典的正则化方法在噪声数据集 D ′ \mathcal{D}^{\prime} D中含有适量(moderate)噪声时表现良好,但仅靠它们并不能充分提高测试准确性;当噪声较为严重(heavy)时,可能仍会出现泛化能力较差的情况。

因此,最近提出了许多更先进的正则化技术,它们与经典方法相结合,进一步提高了对标签噪声的稳健性。

  • Explicit Regularization

    显示的正则化直接对使用的训练损失做直观的修改,比如说weight decaydropout

    👉具体的例子:

    Early-Learning Regularization:🔗Early-Learning Regularization Prevents Memorization of Noisy Labels,简称ELR

    对深度神经网络(DNNs)的记忆效应(memorization effects)的研究表明:对于噪声数据集 D ′ \mathcal{D}^{\prime} D,深度神经网络会首先记忆具有干净标签的训练数据,然后再记忆带有噪声标签的训练数据。这说明DNNs在训练早期学到的东西是比较正确的。ELR就是充分利用模型的早期学习阶段,利用损失内的正则化项鼓励模型将当前输出历史目标输出targets)靠拢,也就是最大化 p [ i ] ( k ) \mathbf{p}^{[i]}(k) p[i](k) t [ i ] ( k ) \mathbf{t}^{[i]}(k) t[i](k)的内积,损失形式如下:

    L E L R ( Θ ) : = L C E ( Θ ) + λ n ∑ i = 1 n log ⁡ ( 1 − ⟨ p [ i ] , t [ i ] ⟩ ) ⏟ Early-Learning Regularization \mathcal{L}_{\mathrm{ELR}}(\Theta):=\mathcal{L}_{\mathrm{CE}}(\Theta)+\underbrace{\frac\lambda n\sum_{i=1}^n\log\left(1-\langle\mathbf{p}^{[i]},\mathbf{t}^{[i]}\rangle\right)}_{\text{Early-Learning Regularization}} LELR(Θ):=LCE(Θ)+Early-Learning Regularization nλi=1nlog(1p[i],t[i])

    其中, t [ i ] ( k ) \mathbf{t}^{[i]}(k) t[i](k) p [ i ] ( k ) \mathbf{p}^{[i]}(k) p[i](k)分别为样本 i i i在第 k k k轮迭代时模型的历史目标输出(targets)和当前输出。历史目标输出就是模型历史输出的移动平均(running average),如下:

    t [ i ] ( k ) : = β t [ i ] ( k − 1 ) + ( 1 − β ) p [ i ] ( k ) \mathbf{t}^{[i]}(k):=\beta\mathbf{t}^{[i]}(k-1)+(1-\beta)\mathbf{p}^{[i]}(k) t[i](k):=βt[i](k1)+(1β)p[i](k)

    其中, β \beta β为动量系数。

  • Implicit Regularization

    隐式的正则化通过增加输入的数据或其标签的随机性拓展特征或标签空间)的方式隐式地提高模型对噪声标签的忍受程度。

    👉具体的例子:

    mixup:🔗mixup: Beyond Empirical Risk Minimization通过噪声训练样本之间的简单线性组合来实现正则化,训练用到的mini-batch是通过噪声数据集 D ′ \mathcal{D}^{\prime} D中随机的两个噪声样本 ( x i , y ~ i ) (x_{i},\tilde{y}_{i}) (xi,y~i) ( x j , y ~ j ) (x_{j},\tilde{y}_{j}) (xj,y~j)线性插值得到的。

    x m i x = λ x i + ( 1 − λ ) x j and y m i x = λ y ~ i + ( 1 − λ ) y ~ j x_{mix}=\lambda x_i+(1-\lambda)x_j\quad\text{and}\quad y_{mix}=\lambda\tilde{y}_i+(1-\lambda)\tilde{y}_j xmix=λxi+(1λ)xjandymix=λy~i+(1λ)y~j

    其中 λ ∈ [ 0 , 1 ] \lambda\in[0,1] λ[0,1]PyTorch-like的伪代码如下:

    # y1, y2 should be one-hot vectors
    for (x1, y1), (x2, y2) in zip(loader1, loader2):
    lam = numpy.random.beta(alpha, alpha)
    x = Variable(lam * x1 + (1. - lam) * x2)
    y = Variable(lam * y1 + (1. - lam) * y2)
    optimizer.zero_grad()
    loss(net(x), y).backward()
    optimizer.step()
    

损失设计

  • 固定但鲁棒的损失函数

    👉具体的例子:

    GCE:🔗Generalized Cross Entropy Loss for Training Deep Neural Networks with Noisy Labels。文中作者对比分析了categorical cross entropyCCE)损失和mean absolute errorMAE)损失,认为:在噪声标签存在的情况下,MAECCE更鲁棒。但同时也存在一个问题,MAE损失收敛比较慢,而且得到的效果也不好(测试误差比较大),如下图(分别在CIFAR10CIFAR100数据集上):

    izow3u.png

    于是作者设计了他们称之为generalized cross entropyGCE)的损失,其兼顾CCE的快速收敛及高泛化能力和MAE的噪声鲁棒性,其形式如下:

    L q ( f ( x ) , e j ) = ( 1 − f j ( x ) q ) q \mathcal{L}_q(f(\boldsymbol{x}),\boldsymbol{e}_j)=\frac{(1-f_j(\boldsymbol{x})^q)}q Lq(f(x),ej)=q(1fj(x)q)

    其中 q ∈ ( 0 , 1 ] q\in(0,1] q(0,1]。上式(GCE)在 q → 0 q\rightarrow0 q0时变成CCE,在 q = 1 q=1 q=1时变成MAE。得到的效果还不错:

    094mzu.png

    可以看到在 q = 0.7 q=0.7 q=0.7的时候,模型给予错误标签样本的平均预测分数相比CCE低了不少,说明模型能够识别到噪声样本并给予它低的分数。

  • 自适应调整的损失函数

    这一类方法根据它们理念的不同又可以分为以下几种:

    1️⃣Loss Correction

    Estimate the noise transition matrix T ^ \hat{\mathrm{T}} T^ to correct the forward or backward loss.

    这种方法类似于前文网络结构优化中提到的Noise Adaptation Layerloss correction将估计的 p ^ ( y ~ ∣ y ; W ) \hat{p}(\tilde{y}\mid y;\mathcal{W}) p^(y~y;W)要么在前向传播阶段作用到网络输出上(forward correction),要么在后向传播阶段作用到网络损失上(backward correction)。与Noise Adaptation Layer的区别是,Loss Correction噪声转移矩阵的估计是与要训练的模型的训练过程解耦的,而不是像Noise Adaptation Layer那样作为要训练的模型的一部分。

    🤜forward correction

    先用噪声转移矩阵对softmax的输出进行修改,再应用损失函数:

    ℓ → ( f ( x ; Θ ) , y ~ ) = ℓ ( ⟨ p ^ ( y ~ ∣ 1 ) , … , p ^ ( y ~ ∣ C ) ⟩ f ( x ; Θ ) ⊤ , y ~ ) = ℓ ( T ^ ⊤ f ( x ; Θ ) ⊤ , y ~ ) \begin{aligned} \mathop{\ell}\limits ^\rightarrow\big(f(x;\Theta),\tilde{y}\big)&=\ell\Big(\Big\langle\hat{p}(\tilde{y}|1),\ldots,\hat{p}(\tilde{y}|C)\Big\rangle f(x;\Theta)^{\top},\tilde{y}\Big) \\ &=\ell\left(\hat{\mathrm{T}}^{\top}f(x;\Theta)^{\top},\tilde{y}\right) \end{aligned} (f(x;Θ),y~)=(p^(y~∣1),,p^(y~C)f(x;Θ),y~)=(T^f(x;Θ),y~)

    🤛backward correction

    先对所有可以观测的类别( 1 , … , C 1,\ldots,C 1,,C)应用损失函数,再用inverse的噪声转移矩阵对整体损失进行修改:

    ℓ ← ( f ( x ; Θ ) , y ~ ) = T ^ − 1 ⟨ ℓ ( f ( x ; Θ ) , 1 ) , … , ℓ ( f ( x ; Θ ) , C ) ⟩ ⊤ \mathop{\ell}\limits ^\leftarrow\big(f(x;\Theta),\tilde{y}\big)=\hat{\mathrm{T}}^{-1}\Big\langle\ell\big(f(x;\Theta),1\big),\ldots,\ell\big(f(x;\Theta),C\big)\Big\rangle^{\top} (f(x;Θ),y~)=T^1(f(x;Θ),1),,(f(x;Θ),C)

    方法的关键在于噪声转移矩阵noise transition matrix的估计。详见🔗Making Deep Neural Networks Robust to Label Noise: A Loss Correction Approach

    🥇gold loss correction

    🔗Using Trusted Data to Train Deep Networks on Labels Corrupted by Severe Noise

    这种方法相较于forward correctionbackward correction仅改变了噪声转移矩阵的估计方式。作者认为存在少量的值得信赖的正确样本gold samples)来帮助我们进行噪声转移矩阵的估计。

    2️⃣Loss Reweighting

    给予具有错误标签的样本较小的权重,给予具有真实标签的样本较大的权重

    mini-batch B t \mathcal{B}_t Bt上重新加权的损失可以写成:

    Θ t + 1 = Θ t − η ∇ ( 1 ∣ B t ∣ ∑ ( x , y ~ ) ∈ B t w ( x , y ~ ) ℓ ( f ( x ; Θ t ) , y ~ ) ⏞ Reweighted Loss ) , \Theta_{t+1}=\Theta_t-\eta\nabla\Bigl(\frac1{|\mathcal{B}_t|}\sum_{(x,\tilde{y})\in\mathcal{B}_t}\overbrace{w(x,\tilde{y})\ell\bigl(f(x;\Theta_t),\tilde{y}\bigr)}^{\text{Reweighted Loss}}\Bigr), Θt+1=Θtη(Bt1(x,y~)Btw(x,y~)(f(x;Θt),y~) Reweighted Loss),

    其中 w ( x , y ~ ) w(x,\tilde{y}) w(x,y~)为具有噪声标签 y ~ \tilde{y} y~的样本 x x x的权重。因此,具有小权重的样本不会明显影响DNN的学习。

    这种方式在实践中比较难以实现,因为不同的噪声数据集 D ′ \mathcal{D}^{\prime} D可能需要不同的产生权重 w ( x , y ~ ) w(x,\tilde{y}) w(x,y~)的方式。某一种产生权重的策略可能对某一个数据集有用,对另外一个不同的数据集可能就没用了。

    3️⃣Label Refurbishment

    refurbishment就是调整、重新装修的意思,这里的label refurbishment指的是利用DNN f ( x ; Θ ) f(x;\Theta) f(x;Θ)当前的预测输出 y ^ \hat{y} y^来修正噪声标签 y ~ \tilde{y} y~,得到修正后的标签 y r e f u r b y^{refurb} yrefurb。在后向传播损失的时候利用的是修正后的标签 y r e f u r b y^{refurb} yrefurb而不是噪声标签 y ~ \tilde{y} y~

    y r e f u r b = α y ~ + ( 1 − α ) y ^ ,   α ∈ [ 0 , 1 ] y^{refurb}=\alpha\tilde{y}+(1-\alpha)\hat{y},\,\alpha\in[0,1] yrefurb=αy~+(1α)y^,α[0,1]

    最近,SELFIE:🔗Refurbishing Unclean Samples for Robust Deep Learning引入了可翻新样本(refurbishable examples)的概念,可以实现高精度的校正。 关键思想是将具有一致标签预测(consistent label predictions)的样本视为可翻新的,因为由于学习者的感知一致性(对同一对象的感知应该是一致的),这种一致的预测很可能与其真实标签相对应。 因此,仅校正可翻新样本的标签,以最小化错误校正案例的数量。

    4️⃣Meta Learning

    近年来,元学习成为机器学习社区的一个重要主题,并被应用于提高噪声鲁棒性。关键概念是learn to learn,在高于传统学习方法的维度进行学习,从而制定与数据和噪声类型无关的loss correction规则。 它类似于loss reweightinglabel refurbishment,但调整是以元学习的方式自动进行的。

样本选择

从噪声数据集 D ′ \mathcal{D}^{\prime} D中选择具有真实标签的样本来训练DNN

Selecting true-labeled examples from a noisy training dataset.

B t \mathcal{B}_{t} Bt t t t时刻的mini-batch C t ⊆ B t \mathcal{C}_{t}\subseteq\mathcal{B}_{t} CtBt t t t时刻经过某种判断策略被认定为干净样本的集合。DNN只在选择的干净样本集合 C t \mathcal{C}_{t} Ct上进行更新。

Θ t + 1 = Θ t − η ∇ ( 1 ∣ C t ∣ ∑ ( x , y ~ ) ∈ C t ℓ ( f ( x ; Θ t ) , y ~ ) ) \Theta_{t+1}=\Theta_t-\eta\nabla\Big(\frac1{|\mathcal{C}_t|}\sum_{(x,\tilde{y})\in\mathcal{C}_t}\ell\big(f(x;\Theta_t),\tilde{y}\big)\Big) Θt+1=Θtη(Ct1(x,y~)Ct(f(x;Θt),y~))

利用样本选择(sample seletion)进行学习有很好的动机,在一般情况下效果也很好,但这种方法会因选择不正确(incorrect selection)而产生累积误差,尤其是当训练数据中有很多模糊类别时。因此,最近的方法通常利用多个DNNs相互合作或运行多轮训练来进行更准确的样本选择。此外,为了充分利用选出的具有错误标签的样本,许多研究还将loss correction或半监督学习方法与样本选择策略相结合。

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值