OpenAi-O1推理范式最新思路汇总-Search-o1、Sky-T1、rStar-Math：兼看注视检测任务

最新推荐文章于 2025-06-10 22:43:57 发布

大模型微调实战

最新推荐文章于 2025-06-10 22:43:57 发布

阅读量1.2k

点赞数 28

文章标签：机器学习知识图谱人工智能深度学习 AI

本文链接：https://blog.csdn.net/2401_85373898/article/details/145109843

版权

一个是多模态端侧模型的一个有趣场景-注视检测（Gaze Detection），这个还蛮有趣。

另一个是关于openai-o1最近的3个后续模仿工作，包括Search-o1、Sky-T1、rStar-Math，后两个的核心其实都是合成数据，第一个是借助Agentic-RAG的思想，一口气看完，应该会有些思路。

专题化，体系化，会有更多深度思考。大家一起加油。

一、多模态端侧模型的一个有趣场景-注视检测（Gaze Detection）

关于多模态端侧模型进展，Moondream 1.9B发布，https://github.com/vikhyat/moondream，https://moondream.ai/playground，https://moondream.ai/blog/introducing-a-new-moondream-1-9b-and-gpu-support中的介绍比较有趣，在端侧上的一些评测对比【抛开基准测试是否真实有意义】，其除了 1.9B，还有个0.5B的端侧多模态模型。

其中注视检测（Gaze Detection） 受到关注，此功能可跟踪人类的注意力。这个场景是有点用的，驾驶员注视检测：或者运动注视检测：。

进一步的看，检测眼球运动的技术，主要用于构建视线控制体验。该技术通过分析用户的视线方向，实现通过目光来控制设备的功能。

这个东西仔细一想，还挺有意义的。‌在无障碍领域‌里，对于行动不便者，通过眼神操控电脑或智能手机，实现文字输入、网页浏览和游戏互动。‌在虚拟现实（VR）和增强现实（AR）‌领域，可以提升交互的真实感和沉浸度，用户可以通过视线选择屏幕上的元素，与虚拟环境互动‌。在‌教育‌场景里自动分析学生在考试中的视线，帮助监考人员检测作弊行为‌；在医疗领域‌里帮助诊断某些神经系统疾病，如帕金森病和多发性硬化症，通过分析患者的视线模式，医生可以获得更多关于患者病情的信息‌。

二、openai-o1推理最近3个后续模仿工作

第一个是Sky-T1，Sky-T1-32B-Preview模型，由NovaSky团队在qwen模型基础上训练并开源的推理模型，其官方博客https://novasky-ai.github.io/posts/sky-t1/中，介绍了整个过程和训练数据。有几个点可以关注。

一个是训练数据，利用QwQ-32B模型生成涵盖数学和编程等领域的推理数据，然后通过拒绝采样（根据正确答案过滤错误样本，具体的如果QwQ样本不正确，则丢弃，对于数学问题，会与基本事实解决方案进行精确匹配。对于编码问题，会执行数据集提供的单元测试），并使用GPT-4o-mini进行格式重写来提升数据质量，最终形成一个包含约17,000个高质量样本的训练集(包含来自APP和TACO的5k编码数据，以及来自NuminaMATH数据集的AIME、MATH和Olympiads子集的10k数学数据以及来自STILL-2的1k科学和谜语数据)。

一个是训练阶段，采用Qwen2.5-32B-Instruct作为初始模型，在8个H100GPU上利用DeepSpeedZeRO-3内存优化技术进行微调，用3个epoch、1e-5的学习率和96的批处理大小，在约19小时内以低于450美元的成本完成了训练，最终得到Sky-T1-32B-Preview模型。

其中也分享了几个经验。

一个是模型大小很重要。最初尝试在较小的模型（7B和14B）上进行训练，但只观察到了适度的改进。例如，在APPs数据集上训练Qwen2.5-14B-Coder-Instruct导致LiveCodeBench上的性能略有提升，从42.6%提高到46.3%。然而，在手动检查较小模型（小于32B）的输出后，经常生成重复内容，从而限制了它们的有效性。

一个是数据配比很重要。最初使用Numina数据集（由STILL-2提供）中的3-4K数学问题训练了一个32B模型，AIME24准确率从16.7%显著提高到43.3%。然而，当将APPs数据集生成的编码数据纳入训练过程时，AIME24准确率下降到36.7%。这种下降可能是由于数学和编码任务所需的推理方法不同。因为从本质上讲，编码推理通常涉及额外的逻辑步骤，例如模拟测试输入或在内部执行生成的代码，而数学问题的推理往往更直接、更结构化。所以，为了解决这些差异，用NuminaMath数据集中的具有挑战性的数学问题和TACO数据集中的复杂编码任务丰富了训练数据。这种平衡的数据配比使模型在两个领域都表现出色，在AIME24上恢复了43.3%的准确率，同时也提高了其编码能力。

这个项目，开源地址在https://github.com/NovaSky-AI/SkyThought，对应的数据地址在https://huggingface.co/datasets/NovaSky-AI/Sky-T1_data_17k，

一个是Search-o1: 《Search-o1：Agentic Search-Enhanced Large Reasoning Models》(https://arxiv.org/pdf/2501.05366，https://github.com/sunnynexus/Search-o1，https://search-o1.github.io/)，RAG引入到推理过程当中。

这个工作的出发点在于，OpenAI-o1这类模型通过强化学习虽然有很强的分步推理能力，但在长时间的推理过程中，模型可能会遇到不确定的知识点，导致错误在整个推理链条中传播，影响最终答案的质量。例如下图，使用 QwQ-32B-Preview分析推理不确定性。左图表示推理过程中识别出的不确定词示例；右图表示每个输出中高频不确定词的平均出现次数。

也就是说，在处理复杂问题时，平均每次推理都会遇到30多个“也许”、“可能”等不确定词，这不仅增加了推理的复杂度，也使得推理过程的人工验证更加困难，因此在推理过程中自动补充必要知识成为提升大型推理模型可信度的关键。

所以，RAG成为了一个很自然而然的方案，知识不够，RAG来凑。

所以，Search-o1 集成了代理检索增强生成 (RAG，注意是Agentic Retrieval-Augmented Generation，有个Agentic) 机制和文档推理(Reason-in-Documents) 模块，在推理过程中动态获取和整合外部知识。这种方法允许推理模型在遇到不确定的知识点时自主检索相关信息，从而提高推理链的连贯性和准确性。

还是举个实际的例子来看会好一些，如下图，有三种推理方式，(a)是原始推理模式，(b) 是带有Agentic-RAG的推理方法，©是Search-o1框架。

在原始推理模式上，其中的任务涉及确定三步化学反应最终产物中的碳原子数。当遇到知识空白时（例如，“反式肉桂醛的结构”），推理方失效。如果无法获得准确的信息，该模型必须依赖于假设，这可能会导致在后续推理步骤中出现连锁错误。

在Agentic-RAG模式上，可以弥补推理过程中的知识空白，使模型能够在需要时自主检索外部知识。当出现不确定性时（例如关于化合物的结构），模型会生成有针对性的搜索查询（例如“反式肉桂醛的结构”）。但是，直接插入检索到的文档（通常包含冗长和离题的信息）可能会扰乱推理流程并损害连贯性。

在Search-o1上，通过整合“文档推理”模块扩展了代理RAG机制。该模块将检索到的文档压缩为重点推理步骤，考虑当前搜索查询、检索到的文档和现有的推理链以生成连贯的步骤。这个迭代过程持续进行，直到得出最终答案。

具体怎么做的，如下：

对于每个问题，首先将任务指令与具体问题结合起来。当推理模型生成推理链时，它可能会创建标有特殊符号的搜索查询。当检测到搜索查询时，它会触发对相关外部文档的检索。然后，这些文档由Reason-in-Documents模块处理，该模块提取和提炼必要的信息。提炼后的知识被重新整合到推理链中，确保模型在保持连贯和逻辑流程的同时融入必要的外部信息，最终形成全面的推理过程和最终答案。

为了高效处理多个问题，使用批量推理机制，可同时处理所有问题。 它首先初始化每个问题的推理序列，然后并行为所有序列生成标记。当在任何序列中识别出搜索查询时，框架会批量检索必要的文档。然后，Reason-in-Documents模块会集体细化这些文档，并将相关信息重新插入到每个相应的推理链中。已完成的推理序列将移至完成集，而正在进行的推理序列将继续处理。这种并行方法显著提高了系统的效率和同时管理多个输入的能力。

一个更为具象化的例子，如HotpotQA数据集的推理过程。

第三个是rStar-Math,《rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking》(https://arxiv.org/pdf/2501.04519，https://github.com/microsoft/rStar已经下架了)，这个最早的工作在 《Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers》 (https://arxiv.org/pdf/2408.06195,https://github.com/zhentingqi/rStar)，这个工作提到，出了蒸馏大模型的思路之外，还可以从自身出发，高质量数学推理数据的稀缺性、合成高质量数学数据的挑战、区分正确和错误推理步骤的困难以及过程奖励模型（PRM）训练数据的不足。

核心是采用MCTS展开生成高质量的训练数据，并逐步迭代改进策略模型和PPM。

所以你看，合成数据又再一次被提及。

核心点包括三个，

一个是蒙特卡洛树搜索（MCTS），通过MCTS生成多步验证的推理轨迹，用于训练策略SLM。MCTS将复杂的数学问题分解为单步生成任务，减少策略SLM的难度。

一个是代码增强的CoT数据合成，在每个步骤中，策略模型生成自然语言和相应的Python代码，只有成功执行Python代码的节点被保留，从而减少中间步骤的错误。

其中，MCTS，为每个问题生成16条推理轨迹。为每个中间步骤分配Q值，贡献越大的步骤Q值越高。

一个是过程偏好模型（PPM），通过构建正负偏好对来训练PPM，PPM使用Q值来区分正确的和不相关的步骤，优化每个推理步骤的评分预测。具体的，使用Q值选择MCTS树中的步骤构建偏好对。正样本为正步骤，负样本为负步骤，且正步骤必须导向正确答案，负步骤必须导向错误答案。使用成对排名损失函数优化PPM的得分预测。

最后，通过四轮自我进化逐步构建前沿策略模型和PPM。每轮使用最新的策略模型和PPM进行MCTS，生成越来越高质量的训练数据，用于训练更强的策略模型和PPM。

所以，总结起来，其重点工作就是代码增强CoT数据合成方法，该方法执行广泛的MCTS展开，生成逐步验证的推理轨迹，用于训练策略SLMs；过程奖励模型训练方法，避免简单的步骤级评分注释，从而产生更有效的过程偏好模型（PPM）；自我进化，其中策略SLMs和PPM从零开始构建，并迭代演化以提高推理能力。通过4轮自我进化，针对74.7万个数学问题生成了数百万个合成解，rStar-Math将SLMs的数学推理提升很多。

最后看一个具象化的prompt: