Simple and Scalable Strategies to Continually Pre-train Large Language Models

本文是LLM系列文章,针对《Simple and Scalable Strategies to Continually Pre-train Large Language Models》的翻译。

摘要

大型语言模型(LLM)通常在数十亿个token上进行预训练,只有在新数据可用时才能重新开始这个过程。一个更有效的解决方案是不断地预训练这些模型——与重新训练相比,节省了大量的计算量。然而,由新数据引起的分布偏移通常会导致先前数据的性能下降或对新数据的适应性差。在这项工作中,我们表明,学习率(LR)重新升温、LR重新衰减和先前数据重放的简单且可扩展的组合足以匹配在所有可用数据上从头开始完全重新训练的性能,如通过最终损失和几个语言模型(LM)评估基准的平均分数来衡量的。具体而言,我们展示了两个常用LLM预训练数据集(英语→英语)之间的弱但现实的分布偏移,以及在405M参数模型规模下具有大数据集大小(数千亿个令牌)的更强分布偏移(英语→德语)。为更大规模的实验选择弱但现实的转变,我们还发现我们的持续学习策略与10B参数LLM的重新训练基线相匹配。我们的结果表明,LLM可以通过简单且可扩展的持续学习策略成功更新,只需使用一小部分计算即可匹配重新训练基线。最后,受先前工作的启发,我们提出了余弦学习率时间表的替代方案,这些方案有助于避免LR重新变暖引起的遗忘,并且不受固定token预算的约束。

1 引言

2 主要发现和收获

3 相关工作

4 背景和方法

  • 4
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值