怎么看神经网络过早收敛_从频率角度理解为什么深度可以加速神经网络的训练...

本文探讨了深度学习在训练速度上的优势,深度神经网络(DNN)通常比浅层网络训练得更快。通过频率原则(Frequency Principle),作者解释了深度学习倾向于优先拟合低频部分,从而加速训练。实验表明,更深层的网络在傅立叶空间中表现为低频,遵循低频先收敛的特性,这称为Deep Frequency Principle。这一理论为理解深度学习的加速效应提供了新的视角。
摘要由CSDN通过智能技术生成

aa1c962fd4be6ae623ca87919e2a52b4.png

作者|周瀚旭、许志钦

单位|上海交通大学

研究方向|深度学习理论

深度加速训练的效应

近些年来,随着深度学习的发展,其已经在图像、语音、自然语言处理等各个不同的领域展现出了优异的性能。在运用中,人们发现,更深层的神经网络往往比隐藏层较少的神经网络训练得快,也有更好的泛化性能。虽然,随着神经网络的加深,可能会出现梯度消失的问题,但是通过例如 Resnet 残差的手段,不仅能解决梯度消失的问题,还能够提升网络的训练速度与泛化性能。

比如何恺明在《Deep Residual Learning for Image Recognition》的实验,由于加入了残差块,34 层的卷积神经网络的泛化性和训练速度都比 18 层的卷积神经网络要好。

8a66416806ca0eb2052569ea0f863da8.png

泛化的问题往往还与数据集本身有密切的关系。因此,我们首先关注为什么加深网络可以加快训练。为避免歧义,我们定义训练快慢是通过看网络达到一个固定误差所需要的训练步数。尽管更深的网络每步需要的计算量更大,但这里我们先忽略这个因素。

为了研究这个问题,首先我们用一个简单的实验来重现这个现象。下图是用不同层数但每层大小一致的 DNN 学习目标函数 cos(3x)+cos(5x),训练到一个固定精度所需要的步数图。我们发现,越深层的神经网络,需要越少的步数,就能够完成任务。

adb8586f9509892a03f813fa6edb4a81.png

即使是对于这么简单的任务,几乎没有文章能够通过数学理论来解释这样的问题;尽管有一些工作开始分析深度线性网络,但仍然几乎没有文章能够从一个比较清晰的视角,通过实验或理论,来解释这样一个非线性神经网络的现象。

因此,即使提供一个可能的理解视角,也是十分必要的。我们工作提出了一个深度频率原则来解释深度带来的加速效应。在这之前,我们首先来看一下什么叫频率原则。

频率原则(Frequency Prin

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值