SSL相关论文总结(五)

Mean teachers are better role models:Weight-averaged consistency targets improve semi-supervised deep learning results

作为实验室里搬砖的核心框架,这篇论文是我读得最认真的一篇,同时这也是一篇集大成之作,在半监督框架的研究上是当时的顶峰了。

前言

论文的特点就是集合了大部分的前沿技术,公式并不多,甚至可以说非常少而且很简单,但是其中的搭配以及使用的考量才是这篇论文的精髓。不得不说,这篇论文可以读出很重的商业气息(这确实是一个欧洲公司的杰作),很多技术介绍的时候很感性,生怕别人看不懂,疯狂给自己打广告。


一、Introduction

这里论文里第二段我觉得非常的形象:
在这里插入图片描述
这里他说出了正则化的本质:降低泛化误差,而不是训练误差,方式就是让正则化模型从判断分类变成优化决策边界,使得决策边界所处位置的数据密度最小,也就是说更难出现复杂的判断情况(这里我认为是正则项的目的,而整个模型还是会对分类准确度有很高的要求的)。
在这里插入图片描述
这一部分也是通过形象的方式去让人理解接下来的一些设计,第一个曲线:整个模型就对着两个labelled data去拟合,这种训练只要曲线穿过两个点就是百分百命中率,但是我们可以发现这个二分类对应的曲线应该是趋近于通过两点的直线而不是这样的n次函数,因为一共就两个点,这两个点标签还一样的,这样的曲线应该是平行线才对;第二个曲线:可以看到在两个大的蓝色点附近有若干小的点(noisy labeled data,数据增强),这样我们可以很清楚地理解数据增强的意义:当模型判断不确定性很高的时候利用增强数据去泛化、去平滑原有数据邻域内的曲线;第三个曲线:把unlabelled data加进去,生成一致性损失,也是用于泛化整体模型,曲线上体现为更加平滑,不易于形成突变;第四个曲线:增加了老师模型;第五个曲线:和时序集成模型一样,MT(mean teacher简称)也是很厉害的啦!
后面,作者有说到目前两种主要的提升策略:第一个就是寻找合适的数据增强方式;第二个就是设计一个合适的老师模型,而这篇论文正是在做第二种研究。
作者在Introduction的最后也是介绍了Π模型,把EMA讲了一下,这个我之前有说过了,就不再重复了,不过作者也分析了Π模型的问题:当数据集非常大的时候Z的更新变得非常麻烦,On^2的时间复杂度作者认为无法负担。

二、MT模型

首先就是MT模型使用EMA的方式与Π模型有了很大的不同,MT将EMA用在了模型传参上,模型不再是简单的复制,而是生成了一个所有参数都EMA过的一个类似的模型。
在这里插入图片描述
这里作者说每个minibatch包含一个labelled data和若干unlabelled data,别的地方我觉得多说无意义,数学上是没什么好说的,就是一个对过往模型参数的一个“记忆”,这个我觉得比之前的时序集成模型更加合理,因为参数表明的是人的理解能力,而如果你只是对于分类有一定的记忆,那不就成了背答案了吗,并不适合于模型的培养。
这里一致性损失使用的是MSE,这里后续有讲解,就不赘述了。


三、消融实验

这里有四点,我觉得都挺需要关注的:
一、去除噪音,这个肯定不行,泛化的优化,事实证明噪音非常关键,没有噪音,泛化能力就是上不去;
二、对EMA参数的敏感和一致性损失的权重:其实他只讲了前面那个:
Note also that in the evaluation runs we used EMA decay α = 0.99 during the ramp-up phase, and α = 0.999 for the rest of the training. We chose this strategy because the student improves quickly early in the training, and thus the teacher should forget the old, inaccurate, student weights quickly. Later the student improvement slows, and the teacher benefits from a longer memory.
后面那个我觉得应该就是一个ramp-up,我前面也讲过;
三、解耦分类和一致性:这里作者对模型进行了修改,提升了模型的耦合性(耦合性对于优化并不是一件好事),事实证明模型解耦能力很强,我们可以简单地将解耦理解为独立思考的能力,有更加清楚的判断;
四、MSE与KL散度的选择问题:我在二刷这篇论文之前并没有对这个有什么深入的理解,我还问老板:unlabelled data之间的损失函数约束性越强越好吗,这个实验就告诉我是这样的。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值