从频率角度理解为什么深度可以加速神经网络的训练

最新推荐文章于 2023-12-26 15:48:52 发布

PaperWeekly

最新推荐文章于 2023-12-26 15:48:52 发布

阅读量1.2k

点赞数

文章标签：神经网络网络机器学习人工智能深度学习

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/111569886

版权

深度神经网络在训练速度和泛化性能上优于浅层网络。研究表明，深度学习倾向于优先拟合低频部分，这一现象被称为频率原则（F-Principle）。通过分析学习组件的等效目标函数的频率分布，即Ratio Density Function (RDF)，可以解释深层网络为何能更快地收敛。实验结果显示，更深层的网络在训练过程中其有效目标函数更接近低频，从而支持了深度频率原则。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者｜周瀚旭、许志钦

单位｜上海交通大学

研究方向｜深度学习理论

深度加速训练的效应

近些年来，随着深度学习的发展，其已经在图像、语音、自然语言处理等各个不同的领域展现出了优异的性能。在运用中，人们发现，更深层的神经网络往往比隐藏层较少的神经网络训练得快，也有更好的泛化性能。虽然，随着神经网络的加深，可能会出现梯度消失的问题，但是通过例如 Resnet 残差的手段，不仅能解决梯度消失的问题，还能够提升网络的训练速度与泛化性能。

比如何恺明在《Deep Residual Learning for Image Recognition》的实验，由于加入了残差块，34 层的卷积神经网络的泛化性和训练速度都比 18 层的卷积神经网络要好。