三思而后行,让大模型推理更强的秘密是「THINK TWICE」?

近日,由 a-m-team 团队提出的一项新研究提出了一个更简洁直观的思路:三思而后行(Think Twice)。

近年来,大语言模型(LLM)的性能提升逐渐从训练时规模扩展转向推理阶段的优化,这一趋势催生了「测试时扩展(test-time scaling)」的研究热潮。OpenAI 的 o1 系列与 DeepSeek 的 R1 模型已展示出显著的推理能力提升。然而,在实现高性能的同时,复杂的训练策略、冗长的提示工程和对外部评分系统的依赖仍是现实挑战。

近日,由 a-m-team 团队提出的一项新研究提出了一个更简洁直观的思路:三思而后行(Think Twice)。它不依赖新的训练,不引入复杂机制,仅通过一种非常人类式的思维策略 ——“再想一轮”—— 在多个基准任务中带来显著性能提升。

图片

  • 论文标题:Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking
  • 论文连接:https://arxiv.org/abs/2503.19855
  • 项目地址:https://github.com/a-m-team/a-m-models
“Multi-round Thinking”
一轮不够,那就两轮、三轮

图片

该方法的核心思想类似于人类在做题时的反思机制:模型先基于原始问题生成第一次答案,再将该答案(而非推理过程)作为新的提示,促使模型独立 “重答” 一次,并在每一轮中不断修正先前的偏误。

这个过程中,模型不会受限于上一次的推理轨迹,而是以一个「结果驱动」的方式自我反思与纠错,逐步逼近更合理的答案。研究人员指出,这种策略有效缓解了大模型推理中常见的 “认知惯性”,即模型过度依赖初始推理路径而难以跳脱错误逻辑。

不靠训练,也能提升多个基准性能

研究团队在四个权威数据集上验证了该方法,包括:

  • AIME 2024(美国数学邀请赛)
  • MATH-500(由 OpenAI 从原始 MATH 数据集中精选出 500 个最具挑战性的问题)
  • GPQA-Diamond(研究生级别问答)
  • LiveCodeBench(编程任务)

图片

在不改变模型结构、无额外训练的前提下,DeepSeek-R1 和 QwQ-32B 等主流模型在所有测试集上均表现出不同程度的提升。例如:

  • DeepSeek-R1 在 AIME 上从 79.7% 提升至 82.0%
  • QwQ-32B 在 AIME 上从 80.3% 提升至 83.1%

更值得注意的是,在进行 2 轮、3 轮甚至 4 轮的 “再思考” 后,准确率稳步上升,模型表现出更强的稳定性和反思能力。

更短的答案、更少的犹豫
模型开始 “自信发言”

除了准确率的提升,研究团队还观察到了语言风格的变化。通过分析模型生成内容中 “but”、“wait”、“maybe”、“therefore” 等语气词的使用频率,他们发现:

  • 模型在第二轮中使用 “but”、“wait” 等不确定词的频率明显减少;
  • 即使在多轮中仍答错,模型的表达也趋向更加简洁、自信;
  • 当模型成功从错误中修正时,常伴随着更慎重的过渡语,例如 “wait”、“therefore” 增多。

这种变化表明,多轮推理不仅提升了结果准确性,也改变了模型的表达风格,使其在回答时更加 “像人类”,且逻辑清晰。

图片

不同推理路径中平均词频的变化。每个子图展示了四个具有代表性的词语 —— “but”(但是)、“wait”(等等)、“maybe”(也许)和 “therefore”(因此)—— 在第 1 轮与第 2 轮中的平均词频,对回答类型进行分组:I-C(错误 → 正确)、I-I(错误 → 错误)、C-C(正确 → 正确)和 C-I(正确 → 错误)。

多做题同时多思考
可能是更好路径

这项研究的一个关键优势在于:它完全作用于推理阶段,不需要额外的训练资源,即插即用。这种方法对于模型部署阶段的优化具有高度实用性,同时也为后续研究提供了可拓展的思路 —— 如何结合监督微调,或构建更智能的多轮判断机制。

目前研究团队已尝试使用基于多轮推理结果的监督微调数据对模型进一步训练,初步结果显示尚未显著突破,但为 “训练 + 推理” 的结合方向奠定了基础。

结语

“Think Twice” 展示了一种简单有效的思路:鼓励大模型主动 “反思”,用多轮推理激发更强的认知能力。它不仅提升了准确率,更令模型在语言表达上变得更加理性、紧凑、自信。

在训练成本不断攀升的今天,这种无需再训练的 “轻量级优化” 无疑具有极强的现实吸引力。未来,多轮推理或许能成为一种标准机制,帮助模型更接近真正意义上的 “会思考”。

 

  如何系统的去学习大模型LLM ?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

事实上,抢你饭碗的不是AI,而是会利用AI的人。

科大讯飞、阿里、华为等巨头公司发布AI产品后,很多中小企业也陆续进场!超高年薪,挖掘AI大模型人才! 如今大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?

与其焦虑……

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓ 

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程(LLaLA/Meta/chatglm/chatgpt)

在这里插入图片描述

LLM大模型学习路线 

阶段1:AI大模型时代的基础理解
  • 目标:了解AI大模型的基本概念、发展历程和核心原理。

  • 内容

  • L1.1 人工智能简述与大模型起源
  • L1.2 大模型与通用人工智能
  • L1.3 GPT模型的发展历程
  • L1.4 模型工程
  • L1.4.1 知识大模型
  • L1.4.2 生产大模型
  • L1.4.3 模型工程方法论
  • L1.4.4 模型工程实践
  • L1.5 GPT应用案例
阶段2:AI大模型API应用开发工程
  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。

  • 内容

  • L2.1 API接口
  • L2.1.1 OpenAI API接口
  • L2.1.2 Python接口接入
  • L2.1.3 BOT工具类框架
  • L2.1.4 代码示例
  • L2.2 Prompt框架
  • L2.3 流水线工程
  • L2.4 总结与展望
阶段3:AI大模型应用架构实践
  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。

  • 内容

  • L3.1 Agent模型框架
  • L3.2 MetaGPT
  • L3.3 ChatGLM
  • L3.4 LLAMA
  • L3.5 其他大模型介绍
阶段4:AI大模型私有化部署
  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。

  • 内容

  • L4.1 模型私有化部署概述
  • L4.2 模型私有化部署的关键技术
  • L4.3 模型私有化部署的实施步骤
  • L4.4 模型私有化部署的应用场景

这份 LLM大模型资料 包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓ 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值