ReST-MCTS*：清华智谱最新突破，解决LLM自训练关键难题

最新推荐文章于 2025-05-14 15:14:05 发布

江湖人称麻花滕

最新推荐文章于 2025-05-14 15:14:05 发布

阅读量1.3k

点赞数 8

文章标签：算法人工智能图像处理深度学习百度

本文链接：https://blog.csdn.net/m0_59235699/article/details/143806955

版权

LLM 自我训练取得重大进展！

大型语言模型（LLM）在各种自然语言任务中取得了显著成功，但其推理能力仍有巨大的提升空间。现有的LLM自我训练方法大多依赖于LLM生成的响应，并筛选具有正确输出答案的样例作为训练数据。然而，这种方法通常会导致低质量的微调训练集，因为即使最终答案正确，中间的推理过程也可能存在错误或无效步骤。这限制了LLM在复杂推理任务中的最终性能

为了解决这个问题，清华智谱研究人员提出了一种名为ReST-MCTS* 的新型强化自我训练方法

清华智谱新方法 ReST-MCTS* 解决了扩展中的一个关键限制：

由于中间步骤 “有问题”，许多当前的自我训练方法在低质量的微调数据中举步维艰，从而限制了 LLM 在复杂任务中的应用。ReST-MCTS* 利用蒙特卡洛树搜索（Monte Carlo Tree Search，MCTS）进行强化学习，在无需大量人工标注的情况下，引导模型生成可靠的推理路径，并获得高质量的训练数据。通过估算每一步正确答案的概率，它可以创建高质量的训练轨迹，在每次迭代中提升 LLM 性能

ReST-MCTS* 将过程奖励引导与树搜索MCTS*算法相结合，用于收集高质量的推理轨迹以及每一步的价值，以训练策略模型和奖励模型

ReST-MCTS* 的核心思想及优势：

左侧部分：推断过程奖励的过程，以及如何进行过程奖励引导树搜索。右侧部分：表示过程奖励模型和策略模型的自我训练

过程奖励引导的树搜索： ReST-MCTS* 使用经过训练的每步过程奖励（价值）模型来引导改进的蒙特卡洛树搜索（MCTS*）算法。该算法会在搜索树中探索不同的推理路径，并根据过程奖励模型的评估来选择最有希望的路径。

自动生成过程奖励标签： ReST-MCTS* 的一个关键创新在于能够自动生成每步训练过程奖励模型所需的标签。它通过执行足够数量的 rollout（从当前状态模拟到最终状态），并根据 rollout 的结果来推断每一步对最终答案的贡献。这种自动标注方法有效地过滤掉了质量最高的样本子集，无需额外的人工干预。

避免传统方法的局限性： 传统的自我训练方法通常只关注最终答案的正确性，而忽略了中间推理步骤的质量。ReST-MCTS* 通过使用过程奖励来评估每一步的质量，从而解决了这个问题。即使最终答案正确，如果中间步骤存在错误或低效，也会得到较低的奖励。这鼓励模型学习更准确、更有效的推理路径。

双重用途的奖励信号： 推断出的奖励具有双重用途：它们既可以用作价值目标来进一步改进过程奖励模型，也可以用来选择高质量的轨迹用于策略模型的自我训练。这种双重用途最大限度地利用了奖励信号，提高了训练效率。

ReST-MCTS* 的组成部分：

MCTS * 搜索算法： 在过程奖励模型的指导下进行高效的树搜索
过程奖励模型（PRM）： 评估部分解决方案的质量，并指导 MCTS* 的搜索过程
策略模型： 为每个问题生成多个中间推理步骤
LLM 自我训练： 使用 MCTS* 收集推理轨迹，在正样本上训练策略模型，并在所有生成的轨迹上训练过程奖励模型

实验结果：

实验结果表明，ReST-MCTS* 在多个方面优于现有方法：

在自我训练方面，ReST-MCTS* 在多次迭代中均优于 ReSTEM 和 Self-Rewarding 等方法
在过程奖励模型方面，ReST-MCTS* 优于 MATH-SHEPHERD 和 Self-Consistency + MATH-SHEPHERD 等现有技术
在推理策略方面，ReST-MCTS* 在相同的搜索预算下，比 Self-Consistency 和 Best-of-N 等基线模型实现了更高的准确性

Paper: https://arxiv.org/abs/2406.03816

GitHub: https://github.com/THUDM/ReST-MCTS

Project: https://rest-mcts.github.io

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述