1. Agent Laboratory: Using LLM Agents as Research Assistants
从历史上看,科学发现一直是一个漫长且耗费巨大的过程,从最初的构思到最终得出结果,需要投入大量的时间与资源。为了加速科学发现进程、降低研究成本并提高研究质量,我们推出了 “智能体实验室”(Agent Laboratory),这是一个基于大语言模型的自主框架,能够完成整个研究流程。该框架接收人类提供的研究思路,并历经三个阶段 —— 文献综述、实验以及报告撰写,从而生成全面的研究成果,包括代码库和研究报告,同时还能让用户在每个阶段提供反馈与指导。
我们将 “智能体实验室” 与多种前沿的大语言模型一同部署,并邀请多位研究人员通过参与调查来评估其质量,提供人工反馈以引导研究过程,进而对最终的论文进行评价。我们发现:
(1) 由 o1-preview 驱动的 “智能体实验室” 能产生最佳的研究成果;
(2) 所生成的机器学习代码与现有方法相比,能够达到前沿水平的性能表现;
(3) 人类的参与,即在每个阶段提供反馈,能显著提升研究的整体质量;
(4) “智能体实验室” 大幅削减了研究开支,相较于以往的自主研究方法,降低了 84% 的成本。
我们期望 “智能体实验室” 能助力研究人员将更多精力投入到创造性构思上,而非耗费在低层次的编码与写作中,最终实现科学发现的加速。
论文: https://arxiv.org/pdf/2501.04227
2. rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
我们推出了 rStar-Math,旨在证明小语言模型(SLMs)能够与 OpenAI 的某一模型在数学推理能力方面相媲美,甚至超越它,而且无需从更优的模型中进行提炼。rStar-Math 是通过蒙特卡洛树搜索(MCTS)进行 “深度思考” 来实现这一目标的,在这个过程中,一个数学策略小语言模型会在基于小语言模型的过程奖励模型的引导下,在测试阶段进行搜索。
rStar-Math 引入了三项创新举措,用以应对训练这两个小语言模型时面临的挑战:
-
一种新的代码增强型思维链(CoT)数据合成方法,该方法会进行大量的蒙特卡洛树搜索展开操作,以生成经逐步验证的推理轨迹,用于训练策略小语言模型;
-
一种新颖的过程奖励模型训练方法,该方法避免了简单的步骤层级分数标注,从而生成了一个更有效的过程偏好模型(PPM);
-
一种自我进化方案,在该方案中,策略小语言模型和过程偏好模型都是从零开始构建,并通过迭代不断进化,以此提升推理能力。
通过对 74.7 万个数学问题进行四轮自我进化以及数百万个合成解决方案的运用,rStar-Math 将小语言模型的数学推理能力提升到了当前的顶尖水平。在 MATH 基准测试中,它将 Qwen2.5-Math-7B 的准确率从 58.8% 提升到了 90.0%,将 Phi3-mini-3.8B 的准确率从 41.4% 提升到了 86.4%,分别比 o1-preview 高出 4.5% 和 0.9%。在美国数学奥林匹克竞赛(AIME)中,rStar-Math 平均能够解决 53.3%(即 15 道题中能解出 8 道)的题目,其解题能力位列最优秀的高中数学尖子生的前 20%。相关代码和数据可在https://github.com/microsoft/rStar获取。
论文: https://arxiv.org/pdf/2501.04519
3. Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though
我们提出了一个全新的框架 —— 元思维链(Meta-CoT),它拓展了传统的思维链(CoT),通过明确地对达成特定思维链所需的潜在推理过程进行建模。我们给出了来自前沿模型的实证证据,这些模型展现出与上下文搜索相符的行为,并且探索了通过过程监督、合成数据生成以及搜索算法来生成元思维链的方法。最后,我们勾勒出一条具体的训练模型以生成元思维链的流程,将指令调整与线性化搜索轨迹以及训练后的强化学习相结合。最后,我们还探讨了开放性的研究问题,包括缩放定律、验证器的作用,以及发现全新推理算法的可能性。
论文: https://arxiv.org/pdf/2501.04682
4. URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics
思维链(CoT)推理已在大语言模型(LLMs)的数学推理中得到广泛应用。近期,在思维链轨迹上引入衍生过程监督引发了关于在测试阶段提升缩放能力的讨论,进而激发了这些模型的潜力。然而,在多模态数学推理中,高质量思维链训练数据的稀缺,阻碍了现有模型实现高精度的思维链推理,也限制了测试阶段推理潜力的发挥。
在本文中,我们提出了一种由三个模块组成的合成策略,它整合了思维链蒸馏、轨迹格式重写以及格式统一,由此生成了一个多模态数学领域的高质量思维链推理指令微调数据集 ——MMathCoT-1M。我们在多个多模态数学基准上全面验证了经过训练的 URSA-7B 模型的前沿(SOTA)性能。
对于测试阶段,我们引入了一种数据合成策略,可自动生成过程注释数据集,即 DualMath-1.1M,它同时侧重于解释性与逻辑性。通过在 DualMath-1.1M 上进一步训练 URSA-7B,我们实现了从思维链推理能力向稳健监督能力的转变。经过训练的 URSA-RM-7B 充当验证器,有效地提升了 URSA-7B 在测试阶段的性能。URSA-RM-7B 还展现出出色的分布外(OOD)验证能力,体现了其泛化性。
论文: https://arxiv.org/pdf/2501.04686
5. 如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】