Contents
Introduction
- 作者构造了类 o1 模型 Macro-o1,通过 CoT 数据集 SFT + 推理时的 MCTS 搜索增强了模型的推理能力
Method
Fine-Tuning with CoT Data
- 这里作者并没有讲清楚如何构造 SFT 数据
- 作者在 CoT 和 instruction 数据集上做了 SFT 来提升模型推理能力,数据集包括 (1) Open-O1 CoT Dataset (Filtered). 在 Open-O1 开源数据集的基础上进行了过滤;(2) Marco-o1 CoT Dataset (Synthetic). 使用 MCTS 合成新的 CoT 数据集;(3) Marco Instruction Dataset. 加入了一些指令遵从数据集
Solution Space Expansion via MCTS
- 推理时使用 MCTS 强化搜索,backprop 阶段的 reward 由模型置信度计算得到 (听起来没有那么合理,置信度高的不一定是对的,感觉这个 reward 设计还是很粗糙的),具体来叔,对于推理步骤上的每个 token 都可以根据 top 5 alternative tokens 计算 confidence score
最终 reward 即为所有 tokens 的平均 confidence score
Fine-Grained Reasoning Action Granularity
- 作者采用了更细粒度的推理步来扩大搜索空间,搜索树上的每个 node 代表 32 or 64 tokens 而非一个完整的推理步;这里的结果看着就有些奇怪,在中文数据上涨点但英文数据上掉点
Reflection after Thinking
- 每个推理步结束都加上 prompt “Wait! Maybe I made some mistakes! I need to rethink from scratch.” 来促进模型反思,这能在困难问题上带来比较大的提升
Experiments
- 实验基于 Qwen2-7B-Instruct
- Main Results.