【CV | Probabilistic End-to-end Noise Correction for Learning with Noisy Labels】阅读笔记

最新推荐文章于 2023-04-24 23:52:59 发布

kinggerui

最新推荐文章于 2023-04-24 23:52:59 发布

阅读量1.4k

点赞数 2

分类专栏：科研论文阅读总结文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/kinggerui/article/details/106773788

版权

科研论文阅读总结专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Probabilistic End-to-end Noise Correction for Learning with Noisy Labels阅读笔记

写在前面
首次接触噪声学习问题是在NLP领域的某两篇论文中，并得知噪声学习问题在CV领域的研究更加广泛且深入，于是乎参照github上一个learning with noise的论文列表，开始粗略阅读CV领域噪声学习方面的论文，并希望能够找到能够借鉴的思路，未来将其迁移至自己研究的领域。PENCIL这篇论文个人还是比较喜欢的，本文结合论文和他人博客内容对论文思路进行梳理，若有理解偏差之处还烦请指出~

要点概述

以下是PENCIL模型框架：
在这里插入图片描述

分析	内容
动机	数据标签存在噪声问题，对有监督训练造成巨大负面效应，而单纯地丢弃噪声数据则会导致数据量减少，同样也不是我们希望看到的
方案	将包含噪声的标签替换成随着训练过程不断更新的软标签
创新点	软标签这个思想其实之前就有，但是本文软标签更新的方案比较特别（之后有空再整理对比别的更新方案）

详细分析

本文的较为核心的两部分是模型损失的计算和标签的更新，下面将分别讲解。在此之前，先来介绍各个符号的含义。

符号含义

符号	含义
$\widetilde{y}$	个人理解是一个衔接 $\hat{y}$ 和 $y^{d}$ 的变量，它帮助 $y^{d}$ 正则化为一个概率分布
$\hat{y}$	原始带噪声的标签
$y^{d}$	标签分布（label distribution），作为纠正后的软标签
$\widetilde{Y}$	所有 $\widetilde{y}_i$ 的联合
$\hat{Y}$	所有 $\hat{y}_i$ 的联合
$Y^{d}$	所有 $y^{d}_i$ 的联合

模型损失的计算

具体公式如下图所示：
在这里插入图片描述
由此可见，模型的损失包含以下三个部分：

第一部分损失（Lc）
含义	使用预测分布与软标签之间的KL散度对偶式来度量分类损失（是最主要的损失）

第二部分损失（Lo）
含义	使用噪声标签与软标签的交叉熵损失，防止软标签与噪声标签偏差过多（前提是噪声标签大部分可信）

第三部分损失（Le）
含义	使用预测分布与自己的交叉熵损失，防止训练卡在局部最优（待议）

标签的更新

接下来看一下PENCIL的算法流程，如下图所示。
在这里插入图片描述
更新涉及到的公式：
$y^{d} = softmax(\widetilde{y})$
$\widetilde{y} = K\hat{y}$

如下图所示，为了更新label distribution（也就是软标签 $y^{d}$ ），我们需要计算第一部分损失（分类损失）对 $y^{d}$ 的偏导。图中两个公式分别是：对使用KL散度形式的 $L_{c}$ 求相应偏导，和对使用KL散度对偶形式的 $L_{c}$ 求相应偏导的结果。作者接下来想要证明后者更优。

注意， $f_{j}(x_{i};\theta)$ 是网络的预测结果，它与label distribution $y^{d}$ 之间的差距决定了网络参数 $\theta$ 如何更新。
在这里插入图片描述
（Q：为啥没有说第二部分损失对其偏导？）

具体是如何证明的呢，我们先看下图中的原文解释。
在这里插入图片描述
对于第 $i$ 个训练样本，假设它是第 $j$ 类。 $f_{j}(x_{i};\theta)$ 是第 $i$ 个训练样本被网络预测成第 $j$ 类（即正确预测）的概率； $y^{d}$ 是label distribution即软标签， $y^{d}_{i}$ 是第 $i$ 个训练样本的label distribution，因此 $y^{d}_{ij}$ 是该样本label distribution中第 $j$ 列的值（也就是该软标签认为的该类别的置信度）。根据公式（10）和（11）我们可以得出以下结论：

结论1：如果 $f_{j}(x_{i};\theta)$ 远大于 $y^{d}_{ij}$ 。公式（10）由于有个log，所以计算出的梯度是medium negative；公式（11）计算出的梯度是large negative，梯度更大
结论2：如果 $f_{j}(x_{i};\theta)$ 远小于 $y^{d}_{ij}$ 。和上面一样的道理，公式（10）由于有个log，所以计算出的梯度是medium positive；公式（11）计算出的梯度是接近于0

假设于对第 $i$ 个训练样本 $x_{i}$ ，它的真实分类类别是7，但它的原始噪声标签 $\hat{y}$ （one-hot）分类类别是3，即在第三列（ $j = 3$ ）数值最大， $\hat{y}_{i,3}=1$ 。由于我们对 $y^{d}_{i}$ 初始化时使用的是噪声标签，因此最开始的 $y^{d}_{i}$ 在第三列数值最大（ $y^{d}_{i,3}$ will be the peak in label distribution）。为了让结果预测正确，网络内部的平滑操作需要使得预测结果 $f_{j}(x_{i};\theta)$ 逐渐偏向正确的第7类，即 $f_{j}(x_{i};\theta)$ peak at $j = 7$ 。

为了达到上述目的，我们需要让 $f_{7}(x_{i};\theta)$ 远大于 $\hat{y}_{i,7}$ ，让 $f_{3}(x_{i};\theta)$ 远小于 $\hat{y}_{i,3}$ 。这样的效果是，让预测结果中正确类别的分数尽可能大，噪声标签对应类别的分数尽可能小。

我们继续结合上面的出的两条结论分析。
结论1可以套进“需要让 $f_{7}(x_{i};\theta)$ 远大于 $\hat{y}_{i,7}$ ”这个情景中，使用公式（11）可以以较大值的负梯度增加 $y^{d}_{i,7}$ ，这样可以实现 $y^{d}_{i,3}$ 尽可能地大，而公式（10）无法实现；
结论2可以套进“如果 $f_{j}(x_{i};\theta)$ 远小于 $y^{d}_{ij}$ ”这个情境中，使用公式（11）由于梯度为0，所以一直不更新， $y^{d}_{i,3}$ 一直不变，而公式（10）会以中等值的正梯度减小 $y^{d}_{i,3}$

(Q:不是希望 $y^{d}_{i,3}$ 越小越好吗？为什么选择让它保持不变？)

备注：
噪声标签 $\hat{y}$ 的作用：

虽然他没有直接影响参数学习，但初始化label distribution $y^{d}$ 的时候需要间接用到它（因为 $\widetilde{y}$ 是用 $\widetilde{y} = K\hat{y}$ 这个式子进行的初始化，而 $y^{d}$ 与 $\hat{y}$ 又存在着联系 $y^{d} = softmax(\widetilde{y})$ ）
在计算第二部分损失的时候用到了 $\hat{y}$ ，以防止软标签与噪声标签偏差过多

kinggerui

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
【CV | Probabilistic End-to-end Noise Correction for Learning with Noisy Labels】阅读笔记

Probabilistic End-to-end Noise Correction for Learning with Noisy Labels阅读笔记zx
复制链接

扫一扫

专栏目录