大模型训练基本流程2024年最新版_大模型测试流程-CSDN博客

本文链接：https://blog.csdn.net/m0_74914256/article/details/141871517

三个微调步骤讨论

前排提示，文末有大模型AGI-CSDN独家资料包哦！

第 1 步：监督微调

监督微调（SFT）确实在大型语言模型（LLM）领域取得了重大进展。但是，仍可能发生意外行为，例如重复内容生成以及困惑度（PPL）分数与生成功能之间的不一致。

根据我们的测试，有几个术语会影响生成行为：

weight decay：OPT模型经过权重衰减预训练。之后，微调通常会继承此设置。但是，它可能不会产生所需的模型。特别是，对于我们的OPT-1.3B示例，我们禁用了重量衰减。
dropout：与上述类似，辍学用于OPT预训练。但是，SFT可能不需要它。特别是，对于我们的 OPT-1.3B 示例，我们启用了 dropout。
dataset：使用更多数据通常提供更好的模型质量。但是，如果数据集的来源差异太大，则可能会损害性能。对于我们的 OPT-1.3B 示例，我们使用以下四个数据集：.Dahoas/rm-static Dahoas/full-hh-rlhf Dahoas/synthetic-instruct-gptj-pairwise yitingxie/rlhf-reward-datasets
training epochs通常，为了避免过度拟合，如果较小的时期可以实现相似的模型质量，我们会选择较小的训练时期而不是较长的时期（在这种情况下，我们使用 PPL 作为指标）。然而，与 InstructGPT 指出的类似，我们发现即使由于训练时间较长而导致过度拟合，仍然建议使用更长的训练时期来获得更好的生成质量。特别是，对于我们的 OPT-1.3B 示例，我们使用 16 个 epoch，即使我们发现 1 或 2 个 epoch 训练可以达到相同的 PPL 分数。

第 2 步：奖励模型微调

奖励模型（RM）微调确实与SFT相似，主要区别在于：（1）训练数据集不同 - RM需要对同一查询的良好响应和不良响应;（2）训练损失不同 - RM要求对排名损失作为优化目标。

我们为奖励模型提供了两个指标：（1）接受的响应（和不良响应）的奖励分数，以及（2）准确性，即何时接受的响应可以获得比拒绝的响应更高的分数。有时，我们观察到准确率非常高，但接受答案的平均奖励分数为负，或者被拒绝答案的分数与接受的答案相似。这会影响步骤3模型的质量吗？如果我们使用步骤 3 的指标奖励分数增益，这可能没有任何问题。但是，此机器学习指标（奖励分数增加/增加）无法真正反映步骤3模型生成质量。因此，我们还没有明确的答案。

在这里，我们分享更多关于我们在探索过程中观察到的内容：

weight decay：对于我们的 OPT-350m 示例，我们启用了 0.1 的重量衰减。
dropout：对于我们的OPT-350m示例，我们禁用了辍学。
dataset：对于我们的 OPT-350m 示例，我们使用以下四个数据集：。Dahoas/rm-static Dahoas/full-hh-rlhf Dahoas/synthetic-instruct-gptj-pairwise yitingxie/rlhf-reward-datasets
training epochsInstructGPT 建议使用 1 个 epoch 微调模型，因为过度拟合会损害步骤 3 的性能。在我们的探索过程中，当我们增加训练周期时，我们没有看到过度拟合行为。但是，要遵循作者的指示。我们将训练周期设置为 1。

此外，我们在此处提供了更多探索，即使我们尚未将它们设置为选项或将它们包含在当前管道中

multiple answers for one prompt在 InstructGPT 中，作者特别提到，对一个提示使用配对的拒绝和接受答案不利于奖励模型训练。因此，InstructGPT 为每个提示解释数据集 4–9 个答案。但是，我们没有找到具有此功能的良好数据集。
initialize RM with SFT or Pretrained checkpoint我们在内部对此进行了测试，但没有发现准确性或奖励分数有太大差异。此外，在InstructGPT中，作者也有同样的发现。但是，我们鼓励用户尝试使用它供自己使用。
Reward score calculation我们使用最终令牌（或第一个填充令牌）来获取奖励分数。但是，它可能不是最佳选择。例如，用户可以尝试整个答案的平均分数等。
Reward loss objective我们只是使用排名损失作为目标。但是，其他的，如MSE，也可以是一种选择。