怎么看神经网络过早收敛_从频率角度理解为什么深度可以加速神经网络的训练...

最新推荐文章于 2024-02-24 21:05:54 发布

赵利兴

最新推荐文章于 2024-02-24 21:05:54 发布

阅读量1.2k

点赞数 1

文章标签：怎么看神经网络过早收敛

本文链接：https://blog.csdn.net/weixin_35728636/article/details/112423151

版权

本文探讨了深度学习在训练速度上的优势，深度神经网络（DNN）通常比浅层网络训练得更快。通过频率原则（Frequency Principle），作者解释了深度学习倾向于优先拟合低频部分，从而加速训练。实验表明，更深层的网络在傅立叶空间中表现为低频，遵循低频先收敛的特性，这称为Deep Frequency Principle。这一理论为理解深度学习的加速效应提供了新的视角。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者｜周瀚旭、许志钦

单位｜上海交通大学

研究方向｜深度学习理论

深度加速训练的效应

近些年来，随着深度学习的发展，其已经在图像、语音、自然语言处理等各个不同的领域展现出了优异的性能。在运用中，人们发现，更深层的神经网络往往比隐藏层较少的神经网络训练得快，也有更好的泛化性能。虽然，随着神经网络的加深，可能会出现梯度消失的问题，但是通过例如 Resnet 残差的手段，不仅能解决梯度消失的问题，还能够提升网络的训练速度与泛化性能。

比如何恺明在《Deep Residual Learning for Image Recognition》的实验，由于加入了残差块，34 层的卷积神经网络的泛化性和训练速度都比 18 层的卷积神经网络要好。