弱监督学习--半监督学习(3):Mean teachers are better role models

前言

论文链接:https://arxiv.org/pdf/1703.01780.pdf
github:https://github.com/CuriousAI/mean-teacher
Mean Teacher 模型是由芬兰的一家AI初创公司在2018年提出,该模型是在 Temporal ensembling Model 的基础上发展而来,其核心出发点仍然是一致性正则。希望使用利用未标记数据的正则化方法,有效减少在半监督学习中的过度适应。

Mean Teacher 模型主要想解决 Temporal ensembling Model 的一个突出问题,即无标签数据的信息只能在下一次 epoch 时才能更新到模型中。由此带来两个问题:

  • 大数据集下,模型更新缓慢;
  • 无法实现模型的在线训练;

这一模型的核心思想是:

模型既充当学生,又充当老师。作为老师,用来产生学生学习时的目标;作为学生,则利用教师模型产生的目标来进行学习。而教师模型的参数是由历史上(前几个step)几个学生模型的参数经过加权平均得到。

介绍

当输入的数据有一个微小的抖动的时候,人类基本可以认为是用一类物体,相应的分类模型应该能够对相似的数据提供一直输出的函数。实现这一目标的一种方法是向模型的输入添加噪声,为了能够使模型学习到更抽象的特征,噪声通常被添加到中间环节中。由此促使了很多正则化的方法例如Dropout。

由于对于未标记的示例未定义分类成本,因此噪声正则化本身不利于半监督学习。为了解决这一问题 Γ Γ Γ model计算了每个数据点和噪声,然后计算了两个预测之间的consistency cost。在这种情况下,模型假设了Teacher和Student的两个角色。一个作为一个Student,它像以前一样学习;另一个作为一个Teacher,它产生目标,然后被作为学习的Student使用。由于模型本身产生目标,它们很可能是不正确的。如果给生成的目标赋予太多的权重,则不一致性的代价要大于错误分类的代价,从而阻碍了对新信息的学习。实际上,这种confirmation bias可能会使得模型的效果变差,但是这种危险可以通过提高目标的质量而得到缓解的。
在这里插入图片描述
带有两个标记示例(大蓝点)和一个未标记的示例,展示了未标记目标(黑色圆圈)的选择如何影响拟合函数(灰色曲线)
(a)没有正则化的模型自由拟合任何预测标注的训练
(b)用噪声标签数据(小点)训练的模型学会围绕标记的数据点给出一致的预测
©模型本身产生目标,它们很可能是不正确的。如果给生成的目标赋予太多的权重,则不一致性的代价要大于错误分类的代价,从而阻碍了对新信息的学习。
(d)给予教师模型噪声误差在没有额外训练的条件下可以目标的偏差,预期的梯度下降方向是向单个噪声的平均值方向下降
(e)模型的集合给出了更好的预期目标

提高目标质量至少有两种方法

  • 一种方法是选择在representations上加扰动,但这并不仅仅是直接加加性或乘性的噪声。
  • 另一种方法是选择一个Teacher Model,而不是简单地复制Student Model

虚拟对抗训练(Virtual Adversarial Training)采用第一种方法并且可以产生令人印象深刻的结果。论文采取第二种方法,也表明它也提供了显著的效果。据论文所知,这两种方法是兼容的,它们的组合可能产生更好的结果。然而,对它们的综合影响的分析不在本文的讨论范围之内。

论文的目标是在没有额外训练的情况下,从Student Model中形成一个更好的Teacher Model。

Mean Teacher

这一模型的核心思想是:

模型既充当学生,又充当老师。作为老师,用来产生学生学习时的目标;作为学生,则利用教师模型产生的目标来进行学习。而教师模型的参数是由历史上(前几个step)几个学生模型的参数经过加权平均得到。
在这里插入图片描述
本文采用两个网络进行训练,连个网络模型结构一样,分别命名为teacher,student网络。student网络参数根据损失函数梯度下降法更新得到;teacher网络参数通过student网络的参数迭代得到。

训练数据:

有标签样本x1,y1,以及无标签样本x2.

训练策略:

将有标签数据x1,y1输入student,从而计算loss1.

将无标签数据x2输入student,从而计算得到label1

将无标签数据x2输入teacher,从而计算得到label2

我们希望两个网络的预测标签尽量相等,因此根据lable1,label2得到损失函数loss2.

根据loss=loss1+loss2更新student网络。

在每个step中,更新student网络参数后,再利用student网络的参数更新teacher网络参数,

因此,Mean Teacher 模型的目标函数的第二项为:
在这里插入图片描述
其中,模型参数 θ 的更新方式为:
在这里插入图片描述
注意,当 α=0 时,Mean Teacher 模型与 Π Π Π 模型在形式上等价;

由此可知,Mean Teacher 模型与 temporal ensembling 模型相比,主要区别及优势是:

  • 在 temporal ensembling 中,无标签数据的目标标签来自模型前几个epoch预测结果的加权平均。而在 Mean Teacher 中,无标签数据的目标标签来自 teacher 模型的预测结果。
  • 由于是通过模型参数的平均来实现标签预测,因此在每个step都可以把无标签中的信息更新到模型中,而不必像 temporal ensembling 模型需要等到一个 epoch 结束再更新。这一特点使得这一算法可以用在大数据集以及在线模型上。

接下来看一下实验结果:
在这里插入图片描述
上图是在 SVHN 数据集上的实验结果,有几点重要结论:

  • 随着标签数据的逐步减少,Mean Teacher 技术相对于纯监督模型带来的提升越来越显著,最佳情况下可以实现 22 个百分点的提升;
  • 对比完整标签集和250个标签集的情况,Mean Teacher 技术仅仅利用了不到 1% 的标签数据,就实现了 4.3 的错误率,仅比全标签集低 2 个百分点,这一点在数据标注昂贵的场景下很有价值。
  • 与其他技术方案相比,在某些情况下,Mean Teacher 技术 没有 VAT 的方案表现优秀。对于这一点,论文作者也提到,由于两个方案切入维度不同,因而二者完全可以互补,从而带来更大的模型提升。
  • 9
    点赞
  • 46
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
对于这个问题,我认为严厉的老师更能成为良好的榜样。尽管严厉的老师可能会被认为不友善,但他们通常能够教给学生一些重要的品质和技能。 首先,严厉的老师能够传授学生要有责任心和纪律的价值观。他们会设定高要求,确保学生完成任务并按时交作业,这有助于培养学生的自律能力。学生可以从他们身上学到自律的重要性,这是一个有助于成功的重要品质。 其次,严厉的老师对学生的行为要求严格,他们会帮助学生树立正确的行为准则。他们会告诉学生如何遵守纪律、尊重他人、认真对待学习等。通过这种严格的要求,学生将学会如何在不同环境下表现得得体,这对他们的未来发展极为重要。 另外,严厉的老师通常对学生有更高的期望值。他们会鼓励学生发掘自己的潜力,并相信他们能够取得更好的成绩。这种期望值激励了学生去追求更高的目标,并帮助他们在学业上取得成功。 最后,严厉的老师也可能成为学生生活中的支持者。尽管他们严格要求,但他们也会给予学生必要的关怀和指导,帮助他们发展个人和社交技能。这对学生建立健康的人际关系和塑造积极态度非常重要。 总之,尽管严厉的老师可能看起来不友善,但他们通常能够成为良好的榜样。他们通过要求学生具备责任心、纪律性以及塑造正确的行为准则来影响学生,激励他们取得成绩并成为成功的人。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值