微软提出rStar-Math,自我进化深度思考,数学能力直逼o1

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

【要点】:本文提出rStar-Math模型,通过自我进化的深度思考机制,实现了小型语言模型在数学推理能力上媲美甚至超越OpenAI o1的表现。
【方法】:rStar-Math采用蒙特卡洛树搜索(MCTS)进行“深度思考”,并结合两个小型语言模型(SLM)——一个执行数学策略的SLM和一个基于SLM的过程奖励模型(PPM)。
【实验】:通过四轮自我进化,生成数百万个合成解决方案用于训练747k个数学问题的数据集,rStar-Math在MATH基准测试中,将Qwen2.5-Math-7B的表现从58.8提升至86.4(AIME),平均解决了53.3%的问题,具体数据和代码可在https://github.com/microsoft/rStar找到。
【链接】:https://www.aminer.cn/pub/677f38a4ae8580e7ff232812

Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Thought

【要点】:本文提出了一种名为Meta Chain-of-Thought (Meta-CoT)的框架,通过显式建模传统Chain-of-Thought (CoT)背后的推理过程,增强了大型语言模型(LLM)的推理能力,实现了更接近人类思维的推理。
【方法】:通过过程监督、合成数据生成和搜索算法,作者开发了一种训练模型生成Meta-CoT的方法,并采用了指令微调与线性化搜索轨迹以及强化学习后训练。
【实验】:作者未具体描述实验细节,但提及了使用状态-of-the-art模型进行行为验证,并讨论了训练模型生成Meta-CoT的流程,具体数据集名称未提及。结果显示,该方法有助于提升模型的推理能力,并探讨了潜在的推理算法发现。
【链接】:https://www.aminer.cn/pub/677f3847ae8580e7ff220028

Agent Laboratory: Using LLM Agents as Research Assistants

【要点】:本文提出了Agent Laboratory,一种基于大型语言模型(LLM)的自主框架,能够完成从文献综述、实验到报告撰写的整个研究过程,旨在加快科学发现速度,降低研究成本,并提高研究质量。
【方法】:Agent Laboratory通过三个阶段——文献综述、实验和报告撰写——接受人类提供的研究想法,并利用先进的LLM模型自动完成研究任务。
【实验】:本研究部署了Agent Laboratory,使用了o1-preview等先进LLM模型,通过研究者参与调查、提供反馈来指导研究过程,并评估最终论文的质量。实验结果表明,Agent Laboratory生成的机器学习代码达到了现有方法的最佳性能,人类在每个阶段的参与显著提高了研究的整体质量,同时Agent Laboratory大幅降低了研究成本,实现了84种研究方法的成本节约。
【链接】:https://www.aminer.cn/pub/677f3926ae8580e7ff24ecc7

Search-o1: Agentic Search-Enhanced Large Reasoning Models

【要点】:论文提出了Search-o1框架,通过集成代理检索增强生成(RAG)机制和文档内推理模块,提高了大型推理模型在复杂推理任务中的性能和可靠性。
【方法】:Search-o1通过在推理过程中集成代理搜索工作流程,允许模型在遇到知识不确定性时动态检索外部知识,并通过文档内推理模块对检索到的信息进行深入分析,以减少噪声并保持推理流的连贯性。
【实验】:研究者在科学、数学和编码等复杂推理任务以及六个开放域问答(QA)基准测试上进行了广泛实验,使用的数据集未在摘要中明确提及,实验结果证明了Search-o1的优越性能。
【链接】:https://www.aminer.cn/pub/67808ab7ae8580e7ff8491ea

URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

【要点】:本文提出了一种三模块综合策略,通过链式思维推理的蒸馏、轨迹格式重写和格式统一,创建高质量的多模态数学Chain-of-thought (CoT)推理指令微调数据集MMathCoT-1M,并训练了URSA-7B模型,进而通过自动生成的DualMath-1.1M数据集增强了模型在测试时的缩放能力和验证性能。
【方法】:作者采用CoT蒸馏、轨迹格式重写以及格式统一的方法,结合数据合成策略,提升了多模态数学推理中CoT的高精度训练和测试时的推理潜力。
【实验】:作者在多个多模态数学基准测试上全面验证了训练后的URSA-7B模型的性能,并进一步在DualMath-1.1M数据集上训练URSA-7B,通过URSA-RM-7B模型实现了测试时的性能提升和出色的分布外验证能力。
【链接】:https://www.aminer.cn/pub/677f3845ae8580e7ff21ec58

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值