大模型训练时,遇到学习率设置不要慌。我来告诉你

现在简单看一下图

当进行大模型训练时,担心因为数据集数量的多少,难以判断大模型的的表现时好时坏,这时我 们可以深挖学习率这一项的设置。简单来说:

学习率(LearningRate)是在梯度下降的过程中更新权重时的超参数,过高会导致模型难以收敛,过低则会导致模型收敛速度过慢,平台已给出默认推荐值,可根据经验调整。

看完这个解释,感觉还是一头雾水,于是,我有查了一下资料,又问了一下文心:文心给出了比较详细的解释,看完后,感觉对学习率有了更深层的理解。

大概意思是,当数据比较少,学习率又低的话,不考虑其他设置的情况下,大模型可能很难从现有数据集中学到好的规律,或者是你想让他懂的地方。

于是我有本着不懂就问的态度,继续向文心这位老师提问,有没有规律的学习率设置,比如我一千数据集设置多少,以后1万数据集又怎么设置。

文心的回答是:没有太固定的设置规律,大概方向还是,不考虑数据集的情况下,使用较低的学习率可以有助于减缓过拟合的发生。较小的数据集,用较低的学习率可能学不到规律,个人理解意思就是数据集数量太少时,可以适当提高学习率,保证让大模型先学到东西。当数据集越来越多时,就应该考虑学习率降下来。但是多少数据量,设置多少的学习率,文心没有给出明显答案,看来这个还是得看经验。

但是思路已经有了,随着数据集数量的增加,可以缓慢降低学习率。

最后,自己也尝试了一下。希望表现能好一点把。

 如果有哪位大佬有所见解的,欢迎交流指点。

  • 8
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一直在路上_沿路

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值