作者|周瀚旭、许志钦
单位|上海交通大学
研究方向|深度学习理论
深度加速训练的效应
近些年来,随着深度学习的发展,其已经在图像、语音、自然语言处理等各个不同的领域展现出了优异的性能。在运用中,人们发现,更深层的神经网络往往比隐藏层较少的神经网络训练得快,也有更好的泛化性能。虽然,随着神经网络的加深,可能会出现梯度消失的问题,但是通过例如 Resnet 残差的手段,不仅能解决梯度消失的问题,还能够提升网络的训练速度与泛化性能。
比如何恺明在《Deep Residual Learning for Image Recognition》的实验,由于加入了残差块,34 层的卷积神经网络的泛化性和训练速度都比 18 层的卷积神经网络要好。
泛化的问题往往还与数据集本身有密切的关系。因此,我们首先关注为什么加深网络可以加快训练。为避免歧义,我们定义训练快慢是通过看网络达到一个固定误差所需要的训练步数。尽管更深的网络每步需要的计算量更大,但这里我们先忽略这个因素。
为了研究这个问题,首先我们用一个简单的实验来重现这个现象。下图是用不同层数但每层大小一致的 DNN 学习目标函数 cos(3x)+cos(5x),训练到一个固定精度所需要的步数图。我们发现,越深层的神经网络,需要越少的步数,就能够完成任务。
即使是对于这么简单的任务,几乎没有文章能够通过数学理论来解释这样的问题;尽管有一些工作开始分析深度线性网络,但仍然几乎没有文章能够从一个比较清晰的视角,通过实验或理论,来解释这样一个非线性神经网络的现象。
因此,即使提供一个可能的理解视角,也是十分必要的。我们工作提出了一个深度频率原则来解释深度带来的加速效应。在这之前,我们首先来看一下什么叫频率原则。