线性Frequency Principle动力学:定量理解深度学习的一种有效模型

本文由上海交通大学的研究团队提出,探讨深度学习中广泛存在的Frequency Principle(F-Principle),即网络倾向于按从低频到高频的顺序学习。通过建立线性F-Principle(LFP)模型,他们定量预测了神经网络的学习结果,揭示了在参数数量远大于训练样本时,DNN仍能良好泛化的原理。研究中,LFP模型在不同情况下的预测与实际训练结果吻合,提供了一种理解和分析深度学习的新方法。
摘要由CSDN通过智能技术生成

640


关于作者:本文的作者是来自上海交通大学致远学院 08 级理科班的四位研究人员。本文由许志钦执笔,张耀宇修改,罗涛和马征审阅校正。这个小组的研究兴趣主要是深度学习理论。


深度学习的广泛成功吸引了大量的科研人员来探索其工作原理。时至今日,深度神经网络(DNN)的许多特性仍然令人费解,比如在模型参数远多于训练样本的情况下,DNN 通常能够较好地泛化。


为了找到分析这个问题的一种思路,我们将深度神经网络和热力学系统进行类比。在热力学系统里,粒子数通常都能达到640?wx_fmt=png这样的量级,因此我们几乎不可能通过对每个粒子的运动进行准确的牛顿力学刻画来理解整个系统的宏观性质。


类似地,对于深度学习,在很多实用的网络构架中,神经元数目很容易达到万的量级,参数数目成百万乃至上亿都很常见。因此,虽然我们可以追踪 DNN 每个参数的演化轨迹,但是仍然难以认识其背后的规律。


基于以上类比,我们可以自然地借鉴物理学的研究方法来理解深度学习。从物理的角度研究一个复杂的系统,我们通常从现象出发,通过构建一些定性乃至定量的有效模型来揭示系统演化的关键规律。


基于这样一种思路,这篇文章我们从深度学习中一种广泛存在现象——频率原则(Frequency Principle 或 F-Principle)即 DNN 倾向于按从低频到高频的顺序来拟合训练数据出发,将给出一种能够在一定情况下定量预测神经网络学习结果的有效模型。 


640?wx_fmt=png


640?wx_fmt=png


我们先用一个简单的例子来理解 F-Principle。用一个 DNN 去拟合下图中红色实线函数,训练完后,DNN(蓝色点)能很好地拟合该函数。


640?wx_fmt=png

 

DNN 输出函数在频率空间的演化过程如下图动画所示,其中红色虚线为目标函数的FT(傅里叶变换),蓝色实线为 DNN 输出函数的 FT,每一帧表示一个训练步,横坐标为频率,纵坐标为振幅。容易发现,在训练过程中,DNN 输出函数在频域空间有一个清晰的演化规律,即其按频率从低到高依次收敛。


640?wx_fmt=png


为了定量预测神经网络学习结果,基于 F-Princip

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值