大模型论文 | 学生党福音！AMD 推出论文 Agent ，“Agent Laboratory” 助你轻松写论文

最新推荐文章于 2025-05-01 09:30:00 发布

大模型本地部署_

最新推荐文章于 2025-05-01 09:30:00 发布

阅读量758

点赞数 20

文章标签：人工智能 AI大模型大模型自然语言处理 LLM ai Agent

本文链接：https://blog.csdn.net/Androiddddd/article/details/145120467

版权

1. Agent Laboratory: Using LLM Agents as Research Assistants

从历史上看，科学发现一直是一个漫长且耗费巨大的过程，从最初的构思到最终得出结果，需要投入大量的时间与资源。为了加速科学发现进程、降低研究成本并提高研究质量，我们推出了 “智能体实验室”（Agent Laboratory），这是一个基于大语言模型的自主框架，能够完成整个研究流程。该框架接收人类提供的研究思路，并历经三个阶段 —— 文献综述、实验以及报告撰写，从而生成全面的研究成果，包括代码库和研究报告，同时还能让用户在每个阶段提供反馈与指导。

我们将 “智能体实验室” 与多种前沿的大语言模型一同部署，并邀请多位研究人员通过参与调查来评估其质量，提供人工反馈以引导研究过程，进而对最终的论文进行评价。我们发现：

(1) 由 o1-preview 驱动的 “智能体实验室” 能产生最佳的研究成果；

(2) 所生成的机器学习代码与现有方法相比，能够达到前沿水平的性能表现；

(3) 人类的参与，即在每个阶段提供反馈，能显著提升研究的整体质量；

(4) “智能体实验室” 大幅削减了研究开支，相较于以往的自主研究方法，降低了 84% 的成本。

我们期望 “智能体实验室” 能助力研究人员将更多精力投入到创造性构思上，而非耗费在低层次的编码与写作中，最终实现科学发现的加速。

论文: https://arxiv.org/pdf/2501.04227

2. rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

我们推出了 rStar-Math，旨在证明小语言模型（SLMs）能够与 OpenAI 的某一模型在数学推理能力方面相媲美，甚至超越它，而且无需从更优的模型中进行提炼。rStar-Math 是通过蒙特卡洛树搜索（MCTS）进行 “深度思考” 来实现这一目标的，在这个过程中，一个数学策略小语言模型会在基于小语言模型的过程奖励模型的引导下，在测试阶段进行搜索。

rStar-Math 引入了三项创新举措，用以应对训练这两个小语言模型时面临的挑战：

一种新的代码增强型思维链（CoT）数据合成方法，该方法会进行大量的蒙特卡洛树搜索展开操作，以生成经逐步验证的推理轨迹，用于训练策略小语言模型；
一种新颖的过程奖励模型训练方法，该方法避免了简单的步骤层级分数标注，从而生成了一个更有效的过程偏好模型（PPM）；
一种自我进化方案，在该方案中，策略小语言模型和过程偏好模型都是从零开始构建，并通过迭代不断进化，以此提升推理能力。

通过对 74.7 万个数学问题进行四轮自我进化以及数百万个合成解决方案的运用，rStar-Math 将小语言模型的数学推理能力提升到了当前的顶尖水平。在 MATH 基准测试中，它将 Qwen2.5-Math-7B 的准确率从 58.8% 提升到了 90.0%，将 Phi3-mini-3.8B 的准确率从 41.4% 提升到了 86.4%，分别比 o1-preview 高出 4.5% 和 0.9%。在美国数学奥林匹克竞赛（AIME）中，rStar-Math 平均能够解决 53.3%（即 15 道题中能解出 8 道）的题目，其解题能力位列最优秀的高中数学尖子生的前 20%。相关代码和数据可在https://github.com/microsoft/rStar获取。

论文: https://arxiv.org/pdf/2501.04519

3. Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

在这里插入图片描述

我们提出了一个全新的框架 —— 元思维链（Meta-CoT），它拓展了传统的思维链（CoT），通过明确地对达成特定思维链所需的潜在推理过程进行建模。我们给出了来自前沿模型的实证证据，这些模型展现出与上下文搜索相符的行为，并且探索了通过过程监督、合成数据生成以及搜索算法来生成元思维链的方法。最后，我们勾勒出一条具体的训练模型以生成元思维链的流程，将指令调整与线性化搜索轨迹以及训练后的强化学习相结合。最后，我们还探讨了开放性的研究问题，包括缩放定律、验证器的作用，以及发现全新推理算法的可能性。

论文: https://arxiv.org/pdf/2501.04682

4. URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

在这里插入图片描述

思维链（CoT）推理已在大语言模型（LLMs）的数学推理中得到广泛应用。近期，在思维链轨迹上引入衍生过程监督引发了关于在测试阶段提升缩放能力的讨论，进而激发了这些模型的潜力。然而，在多模态数学推理中，高质量思维链训练数据的稀缺，阻碍了现有模型实现高精度的思维链推理，也限制了测试阶段推理潜力的发挥。

在本文中，我们提出了一种由三个模块组成的合成策略，它整合了思维链蒸馏、轨迹格式重写以及格式统一，由此生成了一个多模态数学领域的高质量思维链推理指令微调数据集 ——MMathCoT-1M。我们在多个多模态数学基准上全面验证了经过训练的 URSA-7B 模型的前沿（SOTA）性能。

对于测试阶段，我们引入了一种数据合成策略，可自动生成过程注释数据集，即 DualMath-1.1M，它同时侧重于解释性与逻辑性。通过在 DualMath-1.1M 上进一步训练 URSA-7B，我们实现了从思维链推理能力向稳健监督能力的转变。经过训练的 URSA-RM-7B 充当验证器，有效地提升了 URSA-7B 在测试阶段的性能。URSA-RM-7B 还展现出出色的分布外（OOD）验证能力，体现了其泛化性。