MixMatch:半监督学习
1 摘要
半监督学习已被证明是利用未标记数据减轻对大型标记数据集依赖的一个强大范例。在这项工作中,我们结合了目前半监督学习的主流方法,提出了一种新的算法,MixMatch,它利用MixUp方法猜测数据中的低熵标签(low-entropy labels),这些数据包括了数据扩充之后的未标记样本和混合数据(未标记和标记的混合数据)。我们展示了MixMatch在许多数据集和标记的数据量上获得了大量最新的结果。例如,在包含250个标签的CIFAR-10上,我们将错误率降低了4倍(从38%降低到11%),在STL-10上降低了2倍。我们还演示了MixMatch如何帮助实现对差异隐私的更精确的隐私交换。最后,我们进行消融研究,梳理出哪些成分的混合匹配是最重要的成功
2 介绍
最近在训练大型深度神经网络方面取得的成功,在一定程度上要归功于大型标记数据集的存在。然而,对于许多学习任务来说,收集标记数据是昂贵的,因为它必然涉及到专家知识。这一点或许可以从医学任务中得到最好的说明,在医学任务中,使用昂贵的机械和标签进行测量是耗时分析的结果,通常来自多位人类专家的结论。此外,数据标签可能包含被认为是私有的敏感信息。相比之下,在许多任务中,获取未标记的数据要容易得多,也便宜得多
半监督学习(SSL)通过允许模型利用未标记的数据,试图在很大程度上减轻对标记数据的需求。最近的许多半监督学习方法都增加了一个损失项,这个损失项是在未标记的数据上计算的,它鼓励模型更好地泛化至到不可见的数据中。在最近的许多工作中,这个损失项可分为三类:
熵最小化——它鼓励模型对未标记的数据输出有信心的预测;
一致性正则化——当模型的输入受到扰动时,它鼓励模型产生相同的输出分布
泛型正则化——这有助于模型很好地泛化,避免对训练数据的过度拟合。
在本文中,我们引入了MixMatch,这是一种SSL算法,它引入了单个损失,将这些主要方法优雅地结合到半监督学习中。与之前的方法不同,MixMatci rget一次获得所有属性,我们发现它有以下好处:
-
实验表明,MixMatch在所有标准的图像基准测试(第4.2节)上都获得了最先进的结果,例如,在包含250个标签的CIFAR-10上获得了11.08%的错误率(其次是最佳方法,获得了38%的错误率);
-
此外,模型简化测试中表明,MixMatch 的效果比各个trick 混合之和要好;
-
我们在第4.3节中演示了MixMatch对于不同的私有学习是有用的,使PATE框架[34]中的学生能够获得最新的结果,同时增强所提供的隐私保障和所达到的准确性。
简而言之,MixMatch为未标记的数据引入了一个统一的损失项,它无缝地减少了熵&