59.网络训练中的超参调整策略—学习率调整1

最新推荐文章于 2023-07-18 17:57:08 发布

大勇任卷舒

最新推荐文章于 2023-07-18 17:57:08 发布

阅读量699

点赞数

分类专栏：深度学习文章标签：深度学习计算机视觉人工智能

@大勇若怯任卷舒

本文链接：https://blog.csdn.net/m0_47454596/article/details/130930044

版权

66 篇文章 0 订阅 ¥19.90 ¥99.00

订阅专栏

学习率是深度学习模型训练的关键超参数，它影响模型的收敛和性能。本文探讨了学习率的重要性，解释了模型训练过程中遇到的局部极小值和鞍点问题，并介绍了TensorFlow中的几种学习率调整策略，如指数衰减、分段常数和多项式衰减。这些策略有助于模型避免震荡和优化性能。

摘要由CSDN通过智能技术生成

学习率可以说是模型训练最为重要的超参数。
- 通常情况下，一个或者一组优秀的学习率既能加速模型的训练，又能得到一个较优甚至最优的精度。
- 过大或者过小的学习率会直接影响到模型的收敛。
当模型训练到一定程度的时候，损失将不再减少，这时候模型的一阶梯度接近零，对应Hessian 矩阵通常是两种情况
- 一、正定，即所有特征值均为正，此时通常可以得到一个局部极小值，若这个局部极小值接近全局最小则模型已经能得到不错的性能了，但若差距很大，则模型性能还有待于提升，通常情况下后者在训练初最常见。
- 二，特征值有正有负，此时模型很可能陷入了鞍点，若陷入鞍点，模型性能表现就很差。以上两种情况在训练初期以及中期，此时若仍然以固定的学习率，会使模型陷入左右来回的震荡或者鞍点，无法继续优化。
所以，学习率衰减或者增大能帮助模型有效的减少震荡或者逃离鞍点。
通常情况下，大部分学习率调整策略都是衰减学习率，但有时若增大学习率也同样起到奇效。这里结合TensorFlow的内置方法来举例。

1、exponential_decay和natural_exp_decay

exponential_decay(learning_rate, global_step, decay_steps

了解本专栏

关注

专栏目录