推理模型的下一步：别让模型想太多——李宏毅2025大模型第八讲笔记

原创已于 2025-11-02 22:06:30 修改 · 860 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-11-02 22:05:54 首次发布

29 篇文章

订阅专栏

20 篇文章

订阅专栏

上一讲我们提到，推理模型的挑战在于：冗长的推理过程造成模型低效和高的推理成本。本讲则直接点出：“推理模型的下一步不是更会想，而是更知道何时停。” ，本文会按照“问题 → 解法 → 落地” 三个步骤记录，不让模型想太多的方法。

现象：同样的题，模型答 5 次，最短链 5 k token，最长 20 k；长度翻倍，正确率却没涨。见下方截图。记录模型最短的答案为group1，最长的答案为group5（横轴），在多个数学推理任务上，accuracy并没有随着推理内容变长而增加。[1]
根源：纯 RL 只给“答对”正奖励，不给“啰嗦”惩罚 → 模型用长度换置信度
后果：
– 用户侧：苦等 30 s，答案被埋在 10 k token 废话里；
– 厂商侧：GPU 账单随 token 线性膨胀，推理成本 > 训练成本。

给出 4 条技术路线，对应上一讲“四大流派”的瘦身版。

流派	控长手段	一句话总结	关键论文
① Prompt 工程	Chain-of-Draft（每步≤5 词）	不改模型，靠提示逼模型用更短的推理	https://arxiv. org/pdf/2502.18600
② 工作流搜索	减少采样次数	人类直接拧旋钮：约束选择的路径从 8→2，长度立降 60 %
③ 模仿学习	只蒸馏“最短正确路径”	教师写 10 条，选最短对的给学生	https://arxiv.org/abs/2502.18080
④ 强化学习	奖励 = 正确率 − λ｜长度−目标｜	把 token 当罪恶，越接近目标长度越爽	https://arxiv.org/abs/2501.12570 https://arxiv.org/abs/2501.12599 https://arxiv.org/abs/2502.04463