[半监督学习论文笔记-Interpolation Consistency Training for Semi-Supervised learning]**

[半监督学习论文-Interpolation Consistency Training for Semi-Supervised learning]

1.Abstract
文中介绍了Interpolation Consistency Training(ICT),这是一种在半监督学习范式下训练深层神经网络的简单且计算效率高的算法。ICT鼓励未标记点插值处的预测与在这些点处的预测值一致。在分类问题中,ICT将决策边界移动到数据分布的低密度区域。实验表明,在CIFAR-10和SVHN基准数据集上,将ICT应用于标准神经网络体系结构时,其性能达到了最先进水平。
开源代码地址:
https://github.com/vikasverma1077/ICT.git

作者:(IJCAI2019)

在这里插入图片描述

2.Introduction
深度学习在标记数据丰富的监督学习任务中取得了优异的性能)。然而,由于时间、资金和专业知识的限制,标记大量数据通常要消耗大量人力物力。随着机器学习渗透到越来越多的领域,未标记数据量巨大且标签稀少的应用程序数量也在增加。半监督学习(SSL)的目标是利用大量未标记的数据来提高监督学习在小数据集上的性能。通常,SSL算法使用未标记的数据来学习有关输入分布的附加结构。例如,输入分布中的簇结构的存在可能暗示将样本分成不同的标签。这通常被称为集群假设:如果两个样本在输入分布中属于同一个集群,那么它们很可能属于同一个类。聚类假设相当于低密度分离假设:决策边界应位于低密度区域。这种等价性很容易推断:一个位于高密度区域的决策边界将一个聚类分成两个不同的类,要求不同类的样本位于同一个聚类中,这违反了聚类假设。半监督学习的一致性正则化方法通过鼓励对未标记点u+δ的扰动f(u)=f(u+δ)的不变预测来强化低密度分离假设,当且仅当决策边界穿过低密度路径时,这种一致性和小预测误差可同时满足。

不同的一致性正则化技术在选择未标记数据扰动δ方面各不相同。一个简单的选择是使用随机扰动δ。然而,随机扰动在高维中是无效的,因为只有很小比例的输入扰动能够将决策边界推到低密度区域。为了缓解这一问题,虚拟对抗训练或V A T(Miyato et al.,2018)搜索能使模型预测变化最大化的小扰动δ。这涉及到计算分类器相对于其输入的梯度,这对于大型神经网络模型来说计算代价很大。此外,最近的研究表明,对抗性干扰的训练会损害泛化能力。

ICT根据mixup的思想提出对无标签数据进行插值。ICT通过鼓励在未标记点u1和未标记点的插值αu1+(1-α)u2=αf(u1)+(1-α)u2的一致预测来规范半监督学习
在这里插入图片描述

3.Interpolation Consistency Training

在这里插入图片描述

插值后的数据的预测应该与数据预测的插值保持一致

首先,一致性正则化应用的最有用的样本是决策边界附近的样本。在这种低边缘未标记样本uji中添加一个小扰动δ,可能会将uj+δ推到判定边界的另一侧。这将违反低密度分离假设,使uj+δ成为应用一致性正则化的好地方。这些违反假设 的行为不会发生在远离决策边界的高边界未标记点。
回到低边界未标记点uj,我们如何找到一个扰动δ,使得ujand uj+δ位于判定边界的另一侧?使用随机扰动虽然很简单,但是是一种低效的策略,因为接近决策边界的方向子集只占整个空间的一小部分。

相反,如果对两个随机选择的unlabel 样本进行插值,那么两个unlabel样本有以下三种可能:
属于同一个聚类;
属于同一个聚类但不是同一类;
属于不同的聚类和不同的类。

根据聚类假设,则(1)的概率随着类别数目的增加而减小。如果假设每个类的cluster数量是平衡的,那么(2)的概率很低。最后,(3)的概率最高。假设(uj,uk)中的某一个位于决策边界附近(它是增强一致性的一个很好的候选者),很可能由于发生(3)的概率较高,朝向uk的插值指向低密度区域,然后是另一个类的cluster。那么这便是一个很好地来移动决策的方向,插值是一个很好的以扰动一致性为基础的正则化方法。

文中认为,随机未标记样本之间的插值很可能落在低密度区域,因此这种插值是应用一致性正则化较好的位置。但是未标记样本没有标签信息,无法直接对插值后的节点进行标记。不同于但单个未标记节点添加随机扰动,ICT中包含两个未标记节点,并且希望觉得决策边界尽可能地远离类边界,因为具有较大边距的决策边界更易于推广。在有监督学习中,可以通过Mixup方法来实现具有大边距的决策边界。在Mixup中,通过强制模型在样本之间线性变化,将决策边界推离类别边界。
对于有监督的插值对来说,这是通过训练模型fθ来预测位置Mixλ(x,x0)的混合λ(y,y0)来实现的。

在ICT中,作者通过训练模型fθ来预测位置Mixλ(uj,uk)处的“假标签”Mixup λ(fθ(uj),fθ(uk))将mixup扩展到半监督学习环境。为了遵循更保守的一致正则化,我们鼓励模型fθ预测位置组合λ(uj,uk)处的假标签组合λ(fθ0(uj),fθ0(uk)),其中θ0是θ的移动平均值。
在这里插入图片描述

3.1.1 ICT的具体实现

考虑访问标记样本(席,彝)dl,从联合分布p(x,y)中提取。另外,考虑到从边际分布P(X)=P(X,Y)P(Y | X)中提取的未标记样本uj,uk∼DU L。我们的学习目标是训练一个模型fθ,能够从X预测Y
有标记样本从联合分布P(X,Y)中提取,未标记样本对从边际分布P(X)中提取,训练目标是训练一个模型可以根据X预测Y,损失函数包括两部分:
(1)label data的cross entropy(代码中有两种实现,一种是原始label data的cross entropy,一种是采用mixup的思想计算插值后label data的cross entropy;
(2)插值后unlabel data的一致性损失。

在这里插入图片描述

图2:插值一致性训练:通过半监督方式来训练一个student网络。ICT使用mean teacher 模型,其中teacher模型的权重是student权重的平均。在训练过程中,student模型通过一致性预测和label data的监督损失来训练。
算法伪代码:
在这里插入图片描述

3.3 实现细节
带有nesterov动量优化器的SGD。对初始学习率设置为0.1,然后使用余弦退火技术对学习率动态设置。动量参数Momentum设置为0.9。使用了L2正则化系数0.0001,batch size为100。
一致性系数w(t)从其初始值0.0上升到最大值,时间为总epoch数目的四分之一,使用相同的sigmoid上升策略。使用MSE损失计算一致性损失。我们将Mean Teacher的衰减系数设为0.999。
在这里插入图片描述

4.Results

在这里插入图片描述
在这里插入图片描述

在cifar10的1000、2000和4000个标记实验中,一致性系数的最佳值分别为10.0、100.0和100.0,1000、2000和4000标签实验的alpha最佳值分别为0.2、1.0和1.0。总的来说,对于较少的标记数据,较低的最大一致性系数和α值可以获得更低的验证误差。

总结:ICT是对mixup思想的扩展,将插值技术应用到unlabel data上,通过一致性正则化来训练模型,以得到泛化性更强的模型。它融合了mixup和一致性正则化两种方法,通过限制mixup数据的预测与数据预测的mixup一直来进行训练。优点是简单计算量小,不会像VAT那样需要较大计算能力。
可以考虑在图像层面和隐藏层表示层面的插值。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值