![b2ff62dd91a506a0f21ae23e654cd415.png](https://i-blog.csdnimg.cn/blog_migrate/e4b4be450c23ab2f55fafee5c6f84baf.jpeg)
对于监督学习来说,如何获取大量带有标签的数据无疑是一个关键的问题,人工标注的方式费时费力,而一些自动化的方式(比如直接利用社交网络上带有标签的图片)虽然可以快速得到海量的样本,但是却无法保证标签是准确的,往往会带有一些噪声,将这样的数据集直接用于DNN,会令模型对噪声样本过拟合,导致其泛化性能变差。因此,如果能够针对这个问题设计一个框架,使得它对含有噪声标签的数据集是鲁棒的,那么就能很好地减轻工业中的数据标注困难。
这次准备介绍的DivideMix和SELF两篇论文均来自于ICLR2020,它们各自从不同的角度解决了噪声标签的问题,接下来我们就开始对它们一一介绍。
DivideMix
核心思想:模型将它认为是噪声标签的样本分离出来,把它们作为无标签样本,然后用半监督学习(semi-supervised learning, SSL)来对有标签+无标签样本进行学习。
Co-divide
首先是对于噪声样本的判别,这里用到了高斯混合模型(Gaussian Mixture Model, GMM),具体来说对于训练集样本
这样我们就得到了N个样本loss变量,我们认为这N个变量是由两个高斯分布的混合分布产生的,其中均值较大的那个分布是噪声样本,均值较小的是干净样本,那么接下来基于该设定,我们就可以根据每个样本的loss,分别求出它属于干净样本的概率
得到
Confidence Penalty
为了让模型收敛,我们需要在划分数据之前ÿ