目录
摘要
本文主要专注于在几代人迭代中训练深度神经网路。为了优化目标网络也就是学生,需要首先训练另一个具有相同架构的网络也就是教师网络,并用于在下一阶段提供部分信号监督。这种策略可以有效地提高准确性但是其中怎么优化是需要逐步分析的,本文专注于教师的严格性方面,因为严格的教师通常具有很高的准确性方向入手,反向提出问题,宽容的老师是不是意味着有较低的准确性。通过在教师网路中添加一个损失项来使得教师更加宽容。实验结果表明虽然教师网络表现得不那么强大,但是学生表现出持续增长的能力,并最终比其他竞争对手获得更高的分类精度
一、相关工作
1.深度学习的基本思想
设计一个包含多层的分层结构,每个层都包含许多具有相同或相似数学函数的神经元。研究人员认为,足够深度的网络能够在特征空间中拟合非常复杂的分布。在一个称为图像分类的基本问题中,深度神经网络比传统的手工特征实现了更高的准确性。
2.标准的网络优化任务
给定一个模型 M,其参数化形式为 y = f(x;θ),其中 x 和 y 是输入和输出,θ 表示可学习的参数(例如,卷积权重)。给定一个训练集 D = {(x 1,y 1),...,(x N,yN)},目标是确定最适合这些数据的参数 θ。
2.1标准网络任务的不足
由于复杂的网络设计和有限的数据集大小,训练过程经常出现过度拟合,即发现θ在训练集上达到了很高的精度,但测试精度仍远低于训练精度。这限制了我们将训练好的模型推广到未观察到的测试数据。
二、文中进行的工作
1.师生优化的主要扩展
允许网络在几代人中得到优化。这需要训练一个族长模型,用M(0) 表示,它仅由数据集监督。 接下来还有M代,其中第m代在老师M(m−[1])的监督下训练学生M(m)。大多数情况下,识别精度在前几代中上升,但达到饱和后会逐步下降。
2.饱和后下降原因
2.1保存次要信息:师生优化的重要因素
以前,师生优化主要用于从较大的网络中提取知识,以便将其压缩到较小的网络中,识别精度在很大程度上得以保留,或者应用于使用来自较浅网络的预训练权重初始化更深的网络。作为第一项在几代人中训练相同网络的工作,将这种好处解释为真实(one-hot)信号和教师信号之间的加权平衡, 但它没有注意到教师的重要作用:暗示班级水平的相似性。
为了揭示这一特点,在CIFAR100上优化了110层ResNet。文中列出了每一代的训练和测试精度。在软化分布的指导下,学生获得了更高的识别度。深度网络能够自动学习每个图像的语义相似的类,将其命名为次要信息,对应于监督提供的主要信息。
2.2 迈向高质量的二级信息系统
查找次要信息的关键是软化特征向量。为了实现这一目标,一共具有三种方法:
1.标签平滑正则化:添加项是分数分布和均匀分布之间的KL散度
2.置信惩罚:负熵增益
3.最高分差(TSD):没有计算所有类的额外损失,而是选择了一些被分配了最高置信度分数的类,并假设这些类在语义上更有可能与输入图像相似。我们设置了一个固定的整数K,它代表每个图像的语义合理类的数量,包括主类[1]。然后,我们计算小学类与其他得分最高的 K − 1 类之间的置信度分数之间的差距:
(其中 f aT k 是 f 的第 k 个最大元素的缩写,η 是控制地面实况监督和分数惩罚项之间平衡的超参数)
三、总结
1.本文做的改进
提出了一种新的观点,即教师应该保存次要信息,让学生变得更强大。量化这些信息,并实证验证其在图像分类中的影响。在图像分类数据集上训练一些标准网络,然后将它们转移到其他识别任务中。实验证明方法在每种情况下都超越了单代和多代基线。
2.工作的贡献
1.提出了一个新的视角来解释为什么师生优化有效。.
2.提出了一种评估方法来量化其影响。
3.设计了一个高效的“宽容教师”框架,实现了卓越的性能。
文献参考: Training Deep Neural Networks in Generations:A More Tolerant Teacher Educates Better Students