基于MCTS和Residual-EBM的数学推理能力提升实践-CSDN博客

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/132843517

本文介绍了通过Residual-EBM和MCTS增强微调后的LLM数学推理能力，无需额外训练或RLHF。实验表明，这种方法能显著提升模型在数学任务中的表现，尤其是在Residual-EBM和MCTS结合的采样策略下，模型性能得到显著提升。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | 许皓天

导读

LLM 在 NLP 以及 ai-agent 等场景展现出了巨大的应用潜力，并且在复杂推理任务如 math 等任务极大提升了模型性能。

近期，基于 llama2 的 RFT [1] 以及 wizard-math [2] 等通过 rejection-sampling、RLEIF（从 Evol-Instruct 反馈中强化学习（RLEIF）等提升了开源模型的数学能力。比如，wizard-math 使用 Evol-instruct 构造更多量的 SFT 数据，并且引入基于 chatgpt 的过程打分、结果打分的 reward 建模和 PPO 等，使得开源模型能够与闭源模型如 chatgpt 等相当。

然而，这些方法主要通过构造更多的数据实现效果的提升。我们认为，底座模型已经具备一定的推理能力，但缺少有效的采样方法。传统采样方法如 greedy-decoding、beam-search 等均是根据当前 token 的输出概率进行采样，缺少全局评估反馈。这种局部 token 采样的方法，极大限制了模型性能。

为此，我们提出了基于 Residual-EBM [3] 和 MCTS [5] 的方法，在微调好的模型上，使用 EBM 和 MCTS 采样，初步实验显示，该方法能极大提升微调好的模型的数学能力，而不需要使用额外数据重新训练或者 RLHF 等对齐方法。

Residual-EBM and PPO

Residual-EBM [3] 构建了一个基于自回归模型的能量语言模型，可以有效降低 exposure bias。同时，[4] 也指出，PPO+KL-divergence 是边际分布的变分近似，而其最优解为：

这里，我们可以看到最优解与 Residual-EBM [3] 有着类似形式：

这里，为输入序列如 prompt，为输出序列。我们可以看到，Residual-EBM 等价于自回归语言模型与句子级别的能量模型的乘积。而通过全局能量模型对输出句子打分，从而降低模型的 exposure bias。

MCTS

MCTS [5] 是一种解决高维推理问题强有力的工具，在诸如 alpha-go、游戏 ai 等均有应用。近期，TOT [6] 等工作提出了基于树搜索的 COT 算法，提升复杂推理问题的解决能力。这些方法通过使用 BFS、DFS 等搜索算法实现 exploration，并且使用 chatgpt 等接口对中间过程进行打分。[7] 也提出了类似的算法但使用不同的排序函数，实现更高的推理能力。

然而，这些方法均使用