机器学习，几种学习速率衰减模式总结

最新推荐文章于 2025-04-08 00:08:44 发布

hpulfc

最新推荐文章于 2025-04-08 00:08:44 发布

阅读量3.6k

点赞数 2

分类专栏：机器学习文章标签：机器学习学习速率衰减模式 luong10 luong5 luong234

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hpulfc/article/details/81034701

版权

机器学习专栏收录该内容

31 篇文章

订阅专栏

本文介绍了机器学习中学习速率衰减的重要性及几种常见模式，包括luong234、luong5、luong10及noam等。这些模式帮助模型在训练后期更稳定地收敛。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在机器学习中，通常需要不断的通过优化器，优化以减小损失。在优化过程中，最经常用到的就是学习速率，也就是在通过梯度决定模型训练走向的时候所使用的一个总要参数。

在经过多次优化之后，会出现疑惑度不会降低，此时主要是因为，学习速率过大导致模型不能够很好的进行收敛。这个时候需要做的就是，减小学习速率，促使模型收敛。也就是标题中提到的学习速率衰减。

常见的学习速率衰减的几种模式：

luong234
luong5
luong10
noam

这几个模式主要是在开源模型中提到的，如果出现其他衰减模式，另做补充。

前三种衰减模式主要是：总步数，起始学习速率有关

luong234 衰减方式，是通过在总步数三分之二之后开始衰减，接下来的平均衰减四次，每次衰减为上一次的二分之一

luong5 : 是指在总步数二分之一以后开始衰减，以后平均衰减五次，每次二分之一。

luong10: 和上面同理

noam: 与上面不同，主要和四个参数相关，当前步数(S), 预热步数(W_S)，网络层大小(L_S)，原始学习速率(O_S)

每一步速率：

这样在每次优化的时候都会重新设置学习速率。

学习速率衰减模式需要根据具体的情况进行选择。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。