Google DeepMind重磅发布！强化学习训练语言模型实现自我纠正，AI能力再升级！

本文链接：https://blog.csdn.net/Python_cocola/article/details/144477364

论文链接：

https://arxiv.org/pdf/2409.12917

强化学习（SCoRe）自我纠正简介

LLM 可以做很多事情，但它们在犯错时仍然无法自我纠正。目前，训练自我纠正模型要么需要多个模型，要么依赖于更强大的模型，要么需要其他形式的外部监督。到目前为止，这些方法基本上是无效的。

本文介绍了SCoRe（通过强化学习进行自我纠正），这是一种多轮在线强化学习方法，它使用完全自生成的数据显著提高了 LLM 的自我纠正能力。它使用一个两阶段过程和适当的正则化来引导学习过程走向有效的自我纠正策略。

第一阶段训练模型初始化，优化校正性能，同时保持第一次尝试接近基础模型。

第二阶段使用带有奖励的多轮 RL 来鼓励从第一次尝试到第二次尝试的进步。

这种方法允许模型在没有外部监督或多个模型的情况下学习自我校正，并在 MATH 和 HumanEval 等基准测试中实现最先进的性能。

SCoRe 在 LLM 中如何发挥作用？

到目前为止，我们已经看到了两种在大型语言模型 (LLM) 中流行的监督微调 (SFT) 方法：STaR 和 Pair-SFT。本文向我们展示了虽然这些 SFT 方法改进了基础模型的自我纠正能力，但它们仍然无法实现持续积极的自我纠正。经过训练的模型通常只会对其初始响应进行微小的更改，这表明微调过程可能会放大基础模型现有的偏差，而不是教它进行有意义的纠正。

SCoRe（通过强化学习进行自我校正）方法旨在解决早期监督微调实验中发现的挑战。它分为两个主要阶段：

第一阶段：训练模型初始化

在这个阶段，我们可以创建一个在后续的强化学习中不太容易崩溃的模型初始化。

过程：

对基础模型进行微调，以在第二次尝试时产生高回报的修订。
使用 KL 散度惩罚来限制首次尝试响应分布，使其保持接近基础模型的分布。
这种方法迫使模型探索不同的校正策略，而不改变其初始响应。

通过保持首次尝试的响应相对静态，同时改善第二次尝试的响应，该模型学会生成更具信息性和探索性的学习痕迹。

第二阶段：多轮强化学习

在此阶段，我们旨在使用第一阶段的初始化来训练模型进行有效的自我纠正。

过程：

使用第一阶段的模型作为强化学习的起点。
应用奖励塑造技术，为成功的自我纠正提供大量积极的奖励。
这鼓励模型学习并优先考虑自我纠正策略。

SCoRe 以交错方式应用阶段 I 和阶段 II 进行多次迭代，以有效地训练模型。在趋势分析过程中，研究人员在第一次尝试中对基础模型使用了较小的 KL 散度惩罚 (β1)，在第二次尝试中使用了较大的惩罚 (β2 = 10β1)，以平衡探索和利用。

通过这样做，SCoRe 方法能够实现两件重要的事情：

学习鼓励多样化校正策略的模型初始化（第一阶段）。
使用奖励奖金来防止在 RL 训练期间制定非纠正策略（第二阶段）。

超越的结果和现实世界的影响

我们现在知道，使用 SFT 方法提高大型语言模型的自我纠正能力存在很大的局限性。

模式崩溃： STaR 方法倾向于锁定单一的纠正行为模式，这只会导致初始反应发生微小变化。这表明该模型学习了有限的纠正策略，而不是发展出全面的自我纠正能力。

分布不匹配： 虽然通过 Pair-SFT 在更多样化的数据集上进行训练显示出一些改进，但当应用于模型自身的初始响应分布时，它会导致自我校正能力下降。这凸显了训练数据和实际应用之间的分布转变的挑战。

这表明离线监督微调可能对教导模型利用额外的上下文信息来实现复杂的算法行为无效。这种无效性源于训练数据分布变化的挑战，以及放大某些在训练中看起来很有希望但无法推广的行为的趋势。

另一方面，SCoRe 方法在数学和代码生成任务中都表现出了良好的效果。在数学方面，SCoRe 的表现优于其他方法，并显示出 4.4% 的内在自校正增益。与基础模型相比，它还将 Accuracy@t2 提高了 23.0%。对于代码生成，SCoRe 在 MBPP-R 上的准确率达到了 60.6%，与 GPT-3.5 和 GPT-4 之间的差距相当。它还表现出对 HumanEval 的强大泛化能力，内在自校正增量为 12.2%。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述