目录
摘要
提出一种互学习策略,在这种策略下学生相互学习并且相互知道
互学习的学生网络在没有强大的teacher网络下,仍然可以超过一个强大teacher网络
引言
- 小网络是可行的
小网络可以有和大网络一样的表达能力
小网络训练困难,不容易找到合适的参数和需要的函数
以上两点说明限制在于优化,而不是网络的大小
而小网络可以从teacher中学习类别概率或者中间层的特征,实验表明,这些信息可以帮助小网络更好的训练出合适的参数,从而解决小网络难以优化的问题
- 互学习策略
作者提出了一种互学习的策略,在这种策略下,student之间互相学习来共同解决面对的任务
每个student有两个loss:
1.传统的监督学习loss
2.将student的类别后验概率和其他student的类别概率分布对齐的loss
这样训练不仅好于传统的监督学习loss,而且好于常规的蒸馏方法(从强大的teacher中学习隐藏信息)
而且常规的蒸馏方法需要一个强大的老师,但是在这种策略下,与独立学习相比,就算没有老师,几个大型网络的相互学习也可以提高性能
- 为什么有效
在监督loss下,所有的student都预测了同样的类别,那么关于哪个类别是第二大概率类别,由于没有label,所以每个student都有自己的看法,正是这种信息给了知识蒸馏和互学习额外的信息。
在互学习中,students之间对每个样本实例相互讨论并统一出一个最可能的类别,这增加了每个student的后验熵(这是个什么玩意),它可以帮助student学习到一个更优的最小值,并提升他们的泛化能力
这与最近研究网络鲁棒性的高后验熵类似,但是本文提出的方法是一种比盲熵正则(又是什么玩意)更明智的做法
- 总结
用几个小网络,而没有大网络的存在,这使得训练更快
适用于很多网络框架,异质地互学习一个大网络和一个小网络也是有效的
大网络互相学习也是有效的
小网络的总和,也可以看成一个单独的有效的集成模型
- 对比
关于在NLP中的对偶学习,但这只能用在针对的翻译问题中,本文的方法可以应用到普通的分类问题
传统上,认为嵌入更多的多样性是比较好的,而互学习中,由于s