Pseudo-Label:深度学习中一种简单有效的半监督方法

1 摘要

提出了一种简单有效的深度神经网络半监督学习方法。基本上,该网络采用带标签和无标签数据同时训练的监督方式。对于未标记的数据,伪标记,只是选取具有最大预测概率的类,就像它们是真实的标签一样使用。这实际上相当于熵正则化。它倾向于类与类之间的低密度间隔,这是半监督学习通常假定的前提。在MNIST手写体十位数数据集上,采用Denoising Auto-Encoder 和Dropout,这种方法在小数据集上MNIST的表现非常突出。

译者笔记:先用有标记的数据训练模型,然后再用这个模型训练无标记数据,给无标记数据一个Pseudo-label,在MixMatch中就叫guess label,猜测标签。然后用这个带伪标签的数据,对原有标记的数据做一个数据扩容。而MixMatch是不断循环迭代,不仅model进行迭代,guess label也要进行迭代。不断迭代的话,一则model是否收敛需要证明,二则时间上会很复杂。很有可能限制了MixMatch在深度学习模型上的应用。不过在本文中对为什么伪标签有效进行了一个说明,用entropy regularization 进行解释,是比较巧妙的。如果一次伪标签有效,那么多次伪标签也应该是有效的,具体的还要看实验结果。

2 介绍

近年来,深度神经网络在人工智能的硬任务中取得了巨大的成功。所有成功的训练深度神经网络的方法都有一个共同点:它们依赖于无监督学习算法。大多数工作分为两个主要阶段。在第一阶段,无监督预训练中,所有层的权值都由这种分层的无监督训练初始化。在第二阶段,微调,权值是全球训练标签使用反向传播算法在监督的方式。所有这些方法也以半监督的方式工作。我们只需要使用额外的未标记数据进行无监督的预培训。

本文提出了一种简单的半监督神经网络训练方法。该网络基本上是同时训练有标记和无标记数据的有监督中。对于未标记的数据,伪标签,只是选取每次权值更新的预测概率最大的类,就像它们是真实的labels一样使用。原则上,该方法可以将几乎所有的神经网络模型与训练方法相结合。在我们的实验中,去噪自动编码器和dropout提高了效果。

这种方法实际上相当于Entropy Regularization。这种关于类别概率的conditional entropy,用于衡量每一个类别之间的重叠量。通过最小化未标记数据的熵,可以减少类概率分布的重叠。它倾向于类与类之间的低密度间隔,这是半监督学习的普遍假设。

3 深度学习伪标签

3.1 深度神经网络

神经网络
伪标签是一种半监督训练深度神经网络的方法。在本文中,我们将考虑具有M层隐藏单元的多层神经网络:
在这里插入图片描述

  • S^k 是第k层的一种非线性的激活函数,就像是sigmoid那种。
  • 在这里插入图片描述就是输出的预测的目标
  • 是输入的函数
    激活函数
    Sigmoid Unit 是神经网络中最常用的单元之一。这个激活值通常代表二进制概率
    在这里插入图片描述
    当输出使用sigmoid单位而不是soft max时,我们假设每个标签的概率彼此独立。虽然我们的实验数据集的标签是相互排斥的,但为了最大限度地利用sigmoid的饱和区域,我们使用了sigmoid输出单元。
    近年来,Rectified Linear Unit (ReLU)受到了广泛的关注。本机组采用ReLU:
    在这里插入图片描述
    损失函数
    整个网络可以通过最小化可容许损失函数来训练
    在这里插入图片描述
  • C是标签的数量
  • y是第i个label
  • fi 是第i个输出值
  • x 是输入向量
    == 交叉熵==
    如果我们用sigmoid 输出单元,我们可以选择交叉熵作为损失函数:
    在这里插入图片描述
    编者笔记:其实y就是实际label,fi就是模型在x下的输出值。交叉熵就是衡量二者之间差距的一个熵值,这里就是一个很普通的M层的深度神经网络(M一般大于3)

3.2 Denoising Auto-Encoder 去噪自编码器

自编码去噪是一种无监督学习算法,其思想是使所学习的代表方向对inpu模式的部分破坏具有鲁棒性(Vincent et al., 2008)。该方法可用于训练自动编码器,并可将这些DAE叠加起来初始化深度神经网络。
在这里插入图片描述
在那里;为损坏版本的第j个输入值,C;为第j个输入值的重构。Au码员的训练主要包括最小化之间的侦察结构误差;对于二进制输入值,重构误差的一般选择是交叉熵:
在这里插入图片描述
我们在无监督的训练前阶段使用DAE。掩蔽噪声的概率为0.5,用于corrup。与原始DAE不同的是,在我们的实验中,隐藏单元的掩蔽率也为0.5。此外,我们还使用了一个按顺序递减的学习率和线性递增的动量。这个方案的灵感来自于辍学。

  • 6
    点赞
  • 52
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值