《Net2Net: Accelerating Learning Via Knowledge Transfer》 论文阅读

Tianqi Chen, Ian Goodfellow, Jonathon Shlens, ICLR 2016 引用量-278
https://arxiv.org/abs/1511.05641

1 简介

知识迁移路径:预训练网络->更深/宽的网络

目前很多任务都会训练多个不同的网络,每一个可能是对之前的网络的改进,但是每一个网络的训练都是从头开始的,很浪费,本文设计一个方法加快改进网络的训练。从先前训练好的模型中提取知识,作为新网络的初始化。

以往的迁移学习:预训练后加层的时候改变了原本的function
本文: function- preserving transformations。保留pre模型的function。

用预训练模型来初始化更深、更宽的网络,接着让他们自己训练。

提出终身学习的想法:最终的机器学习一定是终身学习的,这些机器学习系统需要持续运行很长一段时间,并且随着这些示例的出现,不断地长经验。我们可以把终身学习系统看作是一个不断增长的培训体系。最优模型复杂度随训练集大小的变化而变化。最初,可以优选小模型,以防止过度拟合并降低使用该模型的计算成本。稍后,可能需要一个大型模型来充分利用大型数据集。Net2Net操作使我们能够顺利地实例化一个大得多的模型,并立即开始在我们的终身学习系统中使用它,而不需要花费数周或数月的时间在最新的、最大版本的训练集上从头开始重新训练一个大模型。

2 方法

2.1 FEATURE PREDICTION

我们简单地试验了一种方法,证明它没有提供显著的优势:
从随机初始化开始训练一个大的student网络,并在student网络中引入一组额外的“teacher预测”层。具体地说,student网络的几个卷积隐藏层被提供给新的、学习的卷积层作为输入。成本函数被修改为包含鼓励这些辅助层的输出接近teacher网络中相应层的术语。换句话说,student被训练使用每个隐藏层来预测教师中隐藏层的值。
我们的目标是让teacher为这个任务提供一个很好的内部表现,student可以很快地复制,然后开始改进。该方法类似于FitNets(Romero等人,2014)的策略,用于训练中等深度的非常窄的网络。不幸的是,我们没有发现这种方法提供任何令人信服的加速或其他相对于baseline方法的优势。
这可能是因为我们的baseline非常强,基于批量标准化的训练(Ioffe&Szegedy,2015)。Mahayri等人。(2015)独立观察到,在将模型更改为使用批量规范化后,FitNets训练策略的益处被消除。

FitNets式的Net2Net学习方法非常普遍,如果成功的话,它将允许student网络的任何架构从teacher网络的任何架构学习。尽管我们无法使这种通用方法起作用,但我们鼓励其他研究人员在未来尝试设计完全通用的Net2Net策略。
我们转而使用不同的Net2Net策略,这些策略在范围上是有限的,但更有效。

2.2 FUNCTION-PRESERVING INITIALIZATIONS

我们展示了两种net2net策略,都是基于初始化student使得它表示的函数和teacher相同,接着再让它们自己训练。
但student网络的初始化参数并不和teacher相同,只是实现的功能初始化为teacher相同的function,即:

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值