大模型训练时，遇到学习率设置不要慌。我来告诉你

一直在路上_沿路

已于 2024-03-17 18:42:45 修改

阅读量4.2k

点赞数 9

分类专栏：百度千帆平台文章标签：学习百度语言模型

于 2024-02-18 18:44:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AlwaysOnRoad_/article/details/136157057

版权

百度千帆平台专栏收录该内容

3 篇文章

订阅专栏

现在简单看一下图

当进行大模型训练时，担心因为数据集数量的多少，难以判断大模型的的表现时好时坏，这时我们可以深挖学习率这一项的设置。简单来说：

学习率（LearningRate）是在梯度下降的过程中更新权重时的超参数，过高会导致模型难以收敛，过低则会导致模型收敛速度过慢，平台已给出默认推荐值，可根据经验调整。

看完这个解释，感觉还是一头雾水，于是，我有查了一下资料，又问了一下文心：文心给出了比较详细的解释，看完后，感觉对学习率有了更深层的理解。

大概意思是，当数据比较少，学习率又低的话，不考虑其他设置的情况下，大模型可能很难从现有数据集中学到好的规律，或者是你想让他懂的地方。

于是我有本着不懂就问的态度，继续向文心这位老师提问，有没有规律的学习率设置，比如我一千数据集设置多少，以后1万数据集又怎么设置。

文心的回答是：没有太固定的设置规律，大概方向还是，不考虑数据集的情况下，使用较低的学习率可以有助于减缓过拟合的发生。较小的数据集，用较低的学习率可能学不到规律，个人理解意思就是数据集数量太少时，可以适当提高学习率，保证让大模型先学到东西。当数据集越来越多时，就应该考虑学习率降下来。但是多少数据量，设置多少的学习率，文心没有给出明显答案，看来这个还是得看经验。

但是思路已经有了，随着数据集数量的增加，可以缓慢降低学习率。

最后，自己也尝试了一下。希望表现能好一点把。

如果有哪位大佬有所见解的，欢迎交流指点。

一直在路上_沿路

博客等级

码龄3年

15
原创

182
点赞

156
收藏

125
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

HarmonyOS路由报错 can‘t find this page pages
2301_80261333: 还是报错啊救救
大模型训练时，遇到学习率设置不要慌。我来告诉你
CSDN-Ada助手: 恭喜作者发布了第13篇博客！标题“大模型训练时，遇到学习率设置不要慌。我来告诉你”十分吸引人，内容必定也是有深度的。希望作者能继续分享关于大模型训练的经验，或者可以扩展到其他领域的技术问题，让读者受益匪浅。谢谢作者的分享，期待更多精彩的内容！
百度 Agent Builder 的使用体验
CSDN-Ada助手: 恭喜您撰写了第12篇博客！标题“百度 Agent Builder 的使用体验”引起了我的兴趣。阅读了您的文章后，我很高兴看到您分享了使用 Agent Builder 的经验。对于这样一个复杂的工具，您以谦虚的态度进行了深入的研究，并将您的体验与我们共享，让我感到非常受益。在下一步的创作中，我希望您可以继续探索 Agent Builder 的更多功能和用途，并与我们分享更多实用的技巧和经验。或许您可以探索一些高级功能，或者分享一些解决常见问题的方法。无论您选择什么主题，我相信您的谦虚态度和深入研究的能力将为读者带来更多的启发。再次祝贺您，并期待您未来的创作！
华为HCIA模拟测试-应用开发入门满分考试
CSDN-Ada助手: 恭喜你在华为HCIA模拟测试中取得满分成绩！这确实是一个了不起的成就，显示出你对应用开发的深厚理解和扎实功底。希望你能继续保持创作的热情和努力，不断提升自己在应用开发领域的技能。接下来，我建议你可以尝试挑战更多的实际项目，不断学习和实践，拓展自己的视野和经验。期待看到你更多的精彩作品，加油！
华为HCIA满分考试
CSDN-Ada助手: 恭喜你顺利通过了华为HCIA满分考试！你的努力和学习成果得到了应有的认可，真是太棒了！希望你能继续保持这样的学习状态，坚持不懈地分享自己的学习心得和经验，对其他考生也能够起到很好的帮助。下一步，建议你可以多关注一些实际应用场景和案例分析，这样不仅可以加深自己的理解，也能够帮助读者更好地理解知识点。加油！期待你更多的精彩文章！

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

一直在路上_沿路 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。