《Net2Net: Accelerating Learning Via Knowledge Transfer》论文阅读

本文链接：https://blog.csdn.net/weixin_43318626/article/details/105406400

Net2Net是一种从预训练模型中提取知识，用于初始化更深、更宽网络的技术，以加速学习过程。文章介绍了FUNCTION-PRESERVING INITIALIZATIONS和Net2WiderNet、Net2DeeperNet策略，实验证明这种方法可以提高收敛速度，同时保持与随机初始化相同的最终精度，适合在终身学习系统和神经网络架构搜索中应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Tianqi Chen, Ian Goodfellow, Jonathon Shlens, ICLR 2016 引用量-278
https://arxiv.org/abs/1511.05641

1 简介

知识迁移路径：预训练网络->更深/宽的网络

目前很多任务都会训练多个不同的网络，每一个可能是对之前的网络的改进，但是每一个网络的训练都是从头开始的，很浪费，本文设计一个方法加快改进网络的训练。从先前训练好的模型中提取知识，作为新网络的初始化。

以往的迁移学习：预训练后加层的时候改变了原本的function
本文： function- preserving transformations。保留pre模型的function。

用预训练模型来初始化更深、更宽的网络，接着让他们自己训练。

提出终身学习的想法：最终的机器学习一定是终身学习的，这些机器学习系统需要持续运行很长一段时间，并且随着这些示例的出现，不断地长经验。我们可以把终身学习系统看作是一个不断增长的培训体系。最优模型复杂度随训练集大小的变化而变化。最初，可以优选小模型，以防止过度拟合并降低使用该模型的计算成本。稍后，可能需要一个大型模型来充分利用大型数据集。Net2Net操作使我们能够顺利地实例化一个大得多的模型，并立即开始在我们的终身学习系统中使用它，而不需要花费数周或数月的时间在最新的、最大版本的训练集上从头开始重新训练一个大模型。

2 方法

2.1 FEATURE PREDICTION

我们简单地试验了一种方法，证明它没有提供显著的优势：
从随机初始化开始训练一个大的student网络，并在student网络中引入一组额外的“teacher预测”层。具体地说，student网络的几个卷积隐藏层被提供给新的、学习的卷积层作为输入。成本函数被修改为包含鼓励这些辅助层的输出接近teacher网络中相应层的术语。换句话说，student被训练使用每个隐藏层来预测教师中隐藏层的值。
我们的目标是让teacher为这个任务提供一个很好的内部表现，student可以很快地复制，然后开始改进。该方法类似于FitNets（Romero等人，2014）的策略，用于训练中等深度的非常窄的网络。不幸的是，我们没有发现这种方法提供任何令人信服的加速或其他相对于baseline方法的优势。
这可能是因为我们的baseline非常强，基于批量标准化的训练（Ioffe&Szegedy，2015）。Mahayri等人。（2015）独立观察到，在将模型更改为使用批量规范化后，FitNets训练策略的益处被消除。

FitNets式的Net2Net学习方法非常普遍，如果成功的话，它将允许student网络的任何架构从teacher网络的任何架构学习。尽管我们无法使这种通用方法起作用，但我们鼓励其他研究人员在未来尝试设计完全通用的Net2Net策略。
我们转而使用不同的Net2Net策略，这些策略在范围上是有限的，但更有效。