OpenAi-O1推理范式最新思路汇总-Search-o1、Sky-T1、rStar-Math:兼看注视检测任务

一个是多模态端侧模型的一个有趣场景-注视检测(Gaze Detection),这个还蛮有趣。

另一个是关于openai-o1最近的3个后续模仿工作,包括Search-o1、Sky-T1、rStar-Math,后两个的核心其实都是合成数据,第一个是借助Agentic-RAG的思想,一口气看完,应该会有些思路。

专题化,体系化,会有更多深度思考。大家一起加油。

一、多模态端侧模型的一个有趣场景-注视检测(Gaze Detection)

关于多模态端侧模型进展,Moondream 1.9B发布,https://github.com/vikhyat/moondream,https://moondream.ai/playground,https://moondream.ai/blog/introducing-a-new-moondream-1-9b-and-gpu-support中的介绍比较有趣,在端侧上的一些评测对比【抛开基准测试是否真实有意义】,其除了 1.9B,还有个0.5B的端侧多模态模型。

其中注视检测(Gaze Detection) 受到关注,此功能可跟踪人类的注意力。这个场景是有点用的,驾驶员注视检测:或者运动注视检测:

进一步的看,检测眼球运动的技术,主要用于构建视线控制体验。该技术通过分析用户的视线方向,实现通过目光来控制设备的功能。

这个东西仔细一想,还挺有意义的。‌在无障碍领域‌里,对于行动不便者,通过眼神操控电脑或智能手机,实现文字输入、网页浏览和游戏互动。‌在虚拟现实(VR)和增强现实(AR)‌领域,可以提升交互的真实感和沉浸度,用户可以通过视线选择屏幕上的元素,与虚拟环境互动‌。在‌教育‌场景里自动分析学生在考试中的视线,帮助监考人员检测作弊行为‌;在医疗领域‌里帮助诊断某些神经系统疾病,如帕金森病和多发性硬化症,通过分析患者的视线模式,医生可以获得更多关于患者病情的信息‌

二、openai-o1推理最近3个后续模仿工作

第一个是Sky-T1,Sky-T1-32B-Preview模型,由NovaSky团队在qwen模型基础上训练并开源的推理模型,其官方博客https://novasky-ai.github.io/posts/sky-t1/中,介绍了整个过程和训练数据。有几个点可以关注。

一个是训练数据,利用QwQ-32B模型生成涵盖数学和编程等领域的推理数据,然后通过拒绝采样(根据正确答案过滤错误样本,具体的如果QwQ样本不正确,则丢弃,对于数学问题,会与基本事实解决方案进行精确匹配。对于编码问题,会执行数据集提供的单元测试),并使用GPT-4o-mini进行格式重写来提升数据质量,最终形成一个包含约17,000个高质量样本的训练集(包含来自APP和TACO的5k编码数据,以及来自NuminaMATH数据集的AIME、MATH和Olympiads子集的10k数学数据以及来自STILL-2的1k科学和谜语数据)。

一个是训练阶段,采用Qwen2.5-32B-Instruct作为初始模型,在8个H100GPU上利用DeepSpeedZeRO-3内存优化技术进行微调,用3个epoch、1e-5的学习率和96的批处理大小,在约19小时内以低于450美元的成本完成了训练,最终得到Sky-T1-32B-Preview模型。

其中也分享了几个经验。

一个是模型大小很重要。最初尝试在较小的模型(7B和14B)上进行训练,但只观察到了适度的改进。例如,在APPs数据集上训练Qwen2.5-14B-Coder-Instruct导致LiveCodeBench上的性能略有提升,从42.6%提高到46.3%。然而,在手动检查较小模型(小于32B)的输出后,经常生成重复内容,从而限制了它们的有效性。

一个是数据配比很重要。最初使用Numina数据集(由STILL-2提供)中的3-4K数学问题训练了一个32B模型,AIME24准确率从16.7%显著提高到43.3%。然而,当将APPs数据集生成的编码数据纳入训练过程时,AIME24准确率下降到36.7%。这种下降可能是由于数学和编码任务所需的推理方法不同。因为从本质上讲,编码推理通常涉及额外的逻辑步骤,例如模拟测试输入或在内部执行生成的代码,而数学问题的推理往往更直接、更结构化。所以,为了解决这些差异,用NuminaMath数据集中的具有挑战性的数学问题和TACO数据集中的复杂编码任务丰富了训练数据。这种平衡的数据配比使模型在两个领域都表现出色,在AIME24上恢复了43.3%的准确率,同时也提高了其编码能力

这个项目,开源地址在https://github.com/NovaSky-AI/SkyThought,对应的数据地址在https://huggingface.co/datasets/NovaSky-AI/Sky-T1_data_17k,

一个是Search-o1: 《Search-o1:Agentic Search-Enhanced Large Reasoning Models》(https://arxiv.org/pdf/2501.05366,https://github.com/sunnynexus/Search-o1,https://search-o1.github.io/),RAG引入到推理过程当中。

这个工作的出发点在于,OpenAI-o1这类模型通过强化学习虽然有很强的分步推理能力,但在长时间的推理过程中,模型可能会遇到不确定的知识点,导致错误在整个推理链条中传播,影响最终答案的质量。例如下图,使用 QwQ-32B-Preview分析推理不确定性。左图表示推理过程中识别出的不确定词示例;右图表示每个输出中高频不确定词的平均出现次数。

也就是说,在处理复杂问题时,平均每次推理都会遇到30多个“也许”、“可能”等不确定词,这不仅增加了推理的复杂度,也使得推理过程的人工验证更加困难,因此在推理过程中自动补充必要知识成为提升大型推理模型可信度的关键。

所以,RAG成为了一个很自然而然的方案,知识不够,RAG来凑。

所以,Search-o1 集成了代理检索增强生成 (RAG,注意是Agentic Retrieval-Augmented Generation,有个Agentic) 机制和文档推理(Reason-in-Documents) 模块,在推理过程中动态获取和整合外部知识。这种方法允许推理模型在遇到不确定的知识点时自主检索相关信息,从而提高推理链的连贯性和准确性。

还是举个实际的例子来看会好一些,如下图,有三种推理方式,(a)是原始推理模式,(b) 是带有Agentic-RAG的推理方法,©是Search-o1框架。

在原始推理模式上,其中的任务涉及确定三步化学反应最终产物中的碳原子数。当遇到知识空白时(例如,“反式肉桂醛的结构”),推理方失效。如果无法获得准确的信息,该模型必须依赖于假设,这可能会导致在后续推理步骤中出现连锁错误。

在Agentic-RAG模式上,可以弥补推理过程中的知识空白,使模型能够在需要时自主检索外部知识。当出现不确定性时(例如关于化合物的结构),模型会生成有针对性的搜索查询(例如“反式肉桂醛的结构”)。但是,直接插入检索到的文档(通常包含冗长和离题的信息)可能会扰乱推理流程并损害连贯性。

在Search-o1上,通过整合“文档推理”模块扩展了代理RAG机制。该模块将检索到的文档压缩为重点推理步骤,考虑当前搜索查询、检索到的文档和现有的推理链以生成连贯的步骤。这个迭代过程持续进行,直到得出最终答案。

具体怎么做的,如下:

对于每个问题,首先将任务指令与具体问题结合起来。当推理模型生成推理链时,它可能会创建标有特殊符号的搜索查询。当检测到搜索查询时,它会触发对相关外部文档的检索。然后,这些文档由Reason-in-Documents模块处理,该模块提取和提炼必要的信息。提炼后的知识被重新整合到推理链中,确保模型在保持连贯和逻辑流程的同时融入必要的外部信息,最终形成全面的推理过程和最终答案。

为了高效处理多个问题,使用批量推理机制,可同时处理所有问题。 它首先初始化每个问题的推理序列,然后并行为所有序列生成标记。当在任何序列中识别出搜索查询时,框架会批量检索必要的文档。然后,Reason-in-Documents模块会集体细化这些文档,并将相关信息重新插入到每个相应的推理链中。已完成的推理序列将移至完成集,而正在进行的推理序列将继续处理。这种并行方法显著提高了系统的效率和同时管理多个输入的能力。

一个更为具象化的例子,如HotpotQA数据集的推理过程。

第三个是rStar-Math,《rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking》(https://arxiv.org/pdf/2501.04519,https://github.com/microsoft/rStar已经下架了),这个最早的工作在 《Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers》 (https://arxiv.org/pdf/2408.06195,https://github.com/zhentingqi/rStar), 这个工作提到,出了蒸馏大模型的思路之外,还可以从自身出发,高质量数学推理数据的稀缺性、合成高质量数学数据的挑战、区分正确和错误推理步骤的困难以及过程奖励模型(PRM)训练数据的不足

核心是采用MCTS展开生成高质量的训练数据,并逐步迭代改进策略模型和PPM。

所以你看,合成数据又再一次被提及。

核心点包括三个,

一个是蒙特卡洛树搜索(MCTS),通过MCTS生成多步验证的推理轨迹,用于训练策略SLM。MCTS将复杂的数学问题分解为单步生成任务,减少策略SLM的难度。

一个是代码增强的CoT数据合成,在每个步骤中,策略模型生成自然语言和相应的Python代码,只有成功执行Python代码的节点被保留,从而减少中间步骤的错误。

其中,MCTS,为每个问题生成16条推理轨迹。为每个中间步骤分配Q值,贡献越大的步骤Q值越高。

一个是过程偏好模型(PPM),通过构建正负偏好对来训练PPM,PPM使用Q值来区分正确的和不相关的步骤,优化每个推理步骤的评分预测。具体的,使用Q值选择MCTS树中的步骤构建偏好对。正样本为正步骤,负样本为负步骤,且正步骤必须导向正确答案,负步骤必须导向错误答案。使用成对排名损失函数优化PPM的得分预测。

最后,通过四轮自我进化逐步构建前沿策略模型和PPM。每轮使用最新的策略模型和PPM进行MCTS,生成越来越高质量的训练数据,用于训练更强的策略模型和PPM。

所以,总结起来,其重点工作就是代码增强CoT数据合成方法,该方法执行广泛的MCTS展开,生成逐步验证的推理轨迹,用于训练策略SLMs;过程奖励模型训练方法,避免简单的步骤级评分注释,从而产生更有效的过程偏好模型(PPM);自我进化,其中策略SLMs和PPM从零开始构建,并迭代演化以提高推理能力。通过4轮自我进化,针对74.7万个数学问题生成了数百万个合成解,rStar-Math将SLMs的数学推理提升很多

最后看一个具象化的prompt:

总结

本文主要介绍了两个最近进展,一个是端侧的大模型和新的任务,另一个是最近对openai-o1的几个模仿工作,核心都是在做合成数据,或者和其他结合,如RAG,这些都是一些新的方向。

建议大家又深入了解需求的,看原文,看源码,踏踏实实的了解。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

在这里插入图片描述
👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值