[Arxiv 2024] Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

Introduction

  • 作者构造了类 o1 模型 Macro-o1,通过 CoT 数据集 SFT + 推理时的 MCTS 搜索增强了模型的推理能力
    在这里插入图片描述

Method

Fine-Tuning with CoT Data

  • 这里作者并没有讲清楚如何构造 SFT 数据
  • 作者在 CoT 和 instruction 数据集上做了 SFT 来提升模型推理能力,数据集包括 (1) Open-O1 CoT Dataset (Filtered). 在 Open-O1 开源数据集的基础上进行了过滤;(2) Marco-o1 CoT Dataset (Synthetic). 使用 MCTS 合成新的 CoT 数据集;(3) Marco Instruction Dataset. 加入了一些指令遵从数据集
    在这里插入图片描述

Solution Space Expansion via MCTS

  • 推理时使用 MCTS 强化搜索,backprop 阶段的 reward 由模型置信度计算得到 (听起来没有那么合理,置信度高的不一定是对的,感觉这个 reward 设计还是很粗糙的),具体来叔,对于推理步骤上的每个 token 都可以根据 top 5 alternative tokens 计算 confidence score
    在这里插入图片描述最终 reward 即为所有 tokens 的平均 confidence score
    在这里插入图片描述

Fine-Grained Reasoning Action Granularity

  • 作者采用了更细粒度的推理步来扩大搜索空间,搜索树上的每个 node 代表 32 or 64 tokens 而非一个完整的推理步;这里的结果看着就有些奇怪,在中文数据上涨点但英文数据上掉点
    在这里插入图片描述

Reflection after Thinking

  • 每个推理步结束都加上 prompt “Wait! Maybe I made some mistakes! I need to rethink from scratch.” 来促进模型反思,这能在困难问题上带来比较大的提升

Experiments

  • 实验基于 Qwen2-7B-Instruct

  • Main Results.
    在这里插入图片描述在这里插入图片描述

References

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值