作者:禅与计算机程序设计艺术
1.简介
Semi-supervised learning(SSL)方法已经在图像、文本、语音、视频等多种领域中得到了广泛应用。然而,尽管目前已有很多研究成果表明SSL的效果非常好,但仍存在一些挑战。比如,SSL学习到的分布往往很难满足真实数据的要求(例如特定目标的不平衡分布),导致模型在实际任务上可能产生性能瓶颈。另外,训练SSL模型通常需要大量标注数据,这给整个过程引入了很大的计算负担。因此,如何提升SSL方法的鲁棒性、效率和性能是当前面临的难题。
本文将介绍一种新的基于pairwise consistency的SSL方法——Unbiased Pairwise Consistency Regularization (UPCR)。UPCR利用先验知识的标签信息,对训练样本之间的标签关系进行建模,使得同类别标签之间的差异更加平滑,从而消除“困难样本”带来的不平衡影响,并达到与baseline相当甚至更好的性能。UPCR方法能够将每个类别内部的样本分布调整到均匀状态,同时还可以减少不同类的标签相关性。
本文主要基于以下观点:
1)传统的SSL方法通常采用全局的方式进行标签分类,而忽略了不同类别之间的相似性,导致它们之间标签的偏斜程度无法保持一致。
2)一个可行的方案是在标签相似性和局部采样间找到一个折衷,使得模型在训练过程中更加关注相