大模型训练基本流程2024年最新版

三个微调步骤讨论

前排提示,文末有大模型AGI-CSDN独家资料包哦!

第 1 步:监督微调

监督微调(SFT)确实在大型语言模型(LLM)领域取得了重大进展。但是,仍可能发生意外行为,例如重复内容生成以及困惑度 (PPL) 分数与生成功能之间的不一致。

根据我们的测试,有几个术语会影响生成行为:

  • weight decay:OPT模型经过权重衰减预训练。之后,微调通常会继承此设置。但是,它可能不会产生所需的模型。特别是,对于我们的OPT-1.3B示例,我们禁用了重量衰减。
  • dropout:与上述类似,辍学用于OPT预训练。但是,SFT可能不需要它。特别是,对于我们的 OPT-1.3B 示例,我们启用了 dropout。
  • dataset:使用更多数据通常提供更好的模型质量。但是,如果数据集的来源差异太大,则可能会损害性能。对于我们的 OPT-1.3B 示例,我们使用以下四个数据集:.Dahoas/rm-static Dahoas/full-hh-rlhf Dahoas/synthetic-instruct-gptj-pairwise yitingxie/rlhf-reward-datasets
  • training epochs通常,为了避免过度拟合,如果较小的时期可以实现相似的模型质量,我们会选择较小的训练时期而不是较长的时期(在这种情况下,我们使用 PPL 作为指标)。然而,与 InstructGPT 指出的类似,我们发现即使由于训练时间较长而导致过度拟合,仍然建议使用更长的训练时期来获得更好的生成质量。特别是,对于我们的 OPT-1.3B 示例,我们使用 16 个 epoch,即使我们发现 1 或 2 个 epoch 训练可以达到相同的 PPL 分数。

第 2 步:奖励模型微调

奖励模型(RM)微调确实与SFT相似,主要区别在于:(1)训练数据集不同 - RM需要对同一查询的良好响应和不良响应;(2)训练损失不同 - RM要求对排名损失作为优化目标。

我们为奖励模型提供了两个指标:(1)接受的响应(和不良响应)的奖励分数,以及(2)准确性,即何时接受的响应可以获得比拒绝的响应更高的分数。有时,我们观察到准确率非常高,但接受答案的平均奖励分数为负,或者被拒绝答案的分数与接受的答案相似。这会影响步骤3模型的质量吗?如果我们使用步骤 3 的指标奖励分数增益,这可能没有任何问题。但是,此机器学习指标(奖励分数增加/增加)无法真正反映步骤3模型生成质量。因此,我们还没有明确的答案。

在这里,我们分享更多关于我们在探索过程中观察到的内容:

  • weight decay:对于我们的 OPT-350m 示例,我们启用了 0.1 的重量衰减。
  • dropout:对于我们的OPT-350m示例,我们禁用了辍学。
  • dataset:对于我们的 OPT-350m 示例,我们使用以下四个数据集:。Dahoas/rm-static Dahoas/full-hh-rlhf Dahoas/synthetic-instruct-gptj-pairwise yitingxie/rlhf-reward-datasets
  • training epochsInstructGPT 建议使用 1 个 epoch 微调模型,因为过度拟合会损害步骤 3 的性能。在我们的探索过程中,当我们增加训练周期时,我们没有看到过度拟合行为。但是,要遵循作者的指示。我们将训练周期设置为 1。

此外,我们在此处提供了更多探索,即使我们尚未将它们设置为选项或将它们包含在当前管道中

  • multiple answers for one prompt在 InstructGPT 中,作者特别提到,对一个提示使用配对的拒绝和接受答案不利于奖励模型训练。因此,InstructGPT 为每个提示解释数据集 4–9 个答案。但是,我们没有找到具有此功能的良好数据集。
  • initialize RM with SFT or Pretrained checkpoint我们在内部对此进行了测试,但没有发现准确性或奖励分数有太大差异。此外,在InstructGPT中,作者也有同样的发现。但是,我们鼓励用户尝试使用它供自己使用。
  • Reward score calculation我们使用最终令牌(或第一个填充令牌)来获取奖励分数。但是,它可能不是最佳选择。例如,用户可以尝试整个答案的平均分数等。
  • Reward loss objective我们只是使用排名损失作为目标。但是,其他的,如MSE,也可以是一种选择。

第 3 步:RLHF 微调

RLHF微调是三步训练中最复杂的一步。与SFT类似,奖励分数不能真正反映模型生成质量。此外&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值