为什么DeepSeek-R1之后的大模型都开始做思维链?

AI 圈超火的 DeepSeek-R1 模型!它在逻辑推理、数学计算、复杂问答这些难题面前,就像开了挂一样厉害。而它的 “秘密武器”之一就是思维链(CoT)技术,今天咱们就一起来揭开它的神秘面纱!

1、 思维链(CoT)究竟是什么?

思维链(Chain of Thought,简称 CoT),简单来说,就是让大模型模仿人类思考的过程。大家想想,咱们平时遇到复杂问题时,是不是会一步步分析,最后得出答案?思维链就是让模型也这么干,把复杂问题拆分成一个个简单步骤,再逐步推导,这样就能得出最终答案!

img

这个超厉害的概念,是在《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》这篇论文里提出的。它有很多厉害的地方:

  • 智能分配计算力:碰到那种需要多步推理的难题,思维链能把问题拆成中间步骤,让模型把更多的计算能力用在刀刃上,专门攻克这些难题。

  • 可解释性超强:以前模型给出答案,咱们都不知道它咋想的。现在有了思维链,就像给模型的思考过程开了一扇窗,能清楚看到它是怎么得出答案的。要是推理过程出了错,也能顺着这个思路去检查、调试。

  • 应用超广泛:不管是数学应用题、常识推理,还是符号操作,思维链都能大显身手。而且从理论上讲,只要是人类能用语言解决的问题,它都有可能搞定!

  • 激发超简单:在足够大的现成语言模型里,只要在少样本提示的示例里加一些思维链序列的例子,就能轻松激发模型的思维链推理能力。

img

2、 DeepSeek-R1 如何运用思维链(CoT)?

DeepSeek-R1 模型在使用思维链技术的时候,有一套自己的 “训练秘籍”。

首先,它得让模型具备输出思维链的能力。

然后,再通过人类反馈强化学习(RLHF)和基于规则的推理奖励(Rule Base Reward for Reasoning)对模型进行强化训练。

经过这样的训练,DeepSeek-R1 模型在推理的时候,就能自然而然地生成思维链,还能按照咱们人类期望的方式来思考和回答问题!

img

3、 Chain-of-Thought Prompting 是什么?

这是引导大语言模型生成思维链的关键方法。简单来讲,就是在给模型的提示里,加入中间推理步骤的示例,这样就能引导模型生成类似的思维链啦。具体有这几个步骤:

  1. 分步提示设计:在编写大模型应用时,咱们可以用特定格式的提示(Prompt)来要求模型展示思考过程。比如说,用 “Let’s think step by step” 这样的关键词,就能触发模型一步步推理。而且它还支持零样本(Zero-shot)和少样本(Few-shot)两种模式,就算没有太多示例,也能让模型开动脑筋!
  2. 中间状态生成:模型会把中间推理步骤生成文本,每一个步骤都能作为后面推理的基础,就像搭积木一样,一步一步搭出完整的推理过程。它是通过自回归的方式,逐步生成这些内容的。
  3. 结果提取:等模型把推理过程都写出来了,咱们就能从生成的文本里找到最终答案啦。一般像 “Therefore, the answer is” 这样的关键词后面,跟着的就是答案。

img

4、如何让大语言模型(LLM)生成思维链?

方法就是刚刚提到的 Chain-of-Thought Prompting。

在少样本提示里,给每个示例都加上和答案相关的思维链。这些示例得清楚展示出,怎么从问题出发,经过一系列中间步骤,最后得出结论。这样一来,大语言模型在遇到新问题时,就会照着这些示例的思路,分解问题、生成思维链了。

img

5、那么怎么强化思维链复现 o1 呢?主要有以下四条路线:

5.1、基于过程监督的强化学习。

就是说,本来我们让模型 think step by step 它就可以写出一些过程的,但这些过程大抵是不太对的。那我们就像人类的老师改学生作业一样,仔细看看过程,看看是哪一步做错了,对于做错的那一步扣分;做对的那一步加分。

这个路线所面临的核心问题是,

  • 1、怎么去界定步骤?毕竟打分是以步骤来进行的。但是每次解题的过程都不一定能和标答对上,于是得分点就不好判断了。
  • 2、谁来判定哪个过程是正确的?理想情况是老师能仔细阅读每一个步骤,如果想错了就扣分,如果做对了就给分。但是在当时大家手上并没有一个数学非常好的模型能做到这一点。

代表性的工作,比如 OpenAI 的 Let’s verify step by step,就是用过程监督的办法来强化思维链,取得了一定效果。

5.2、蒙特卡洛树搜索(MCTS)。

这也是个强化学习的经典算法,当初阿尔法狗就是用了这个算法在围棋中打爆了人类的。如果把解数学题看作是一个在迷宫中搜索正确路径的过程,那么就可以引入这个算法。在搜索中,需要准确评估当前这条路径到底看上去合不合理(状态价值有多少,状态价值可以看作是当前期望能拿到的奖励)。

这个路线所面临的核心问题:

  • 1、把以文字为主的数学题抽象成迷宫,怎么做?毕竟无论是题目还是解答过程都是文字,怎么对这些连续的文字划分成分段的过程?怎么清晰地把所有下一步可能的过程或者结果抽象成有限的节点?
  • 2、假如我们已经把数学问题抽象成了一个迷宫,怎么判断当前这条路径好不好?谁有能力来做这样的判断?

这一类工作代表作有微软的 rStar,也取得了一定的效果。

5.3、监督微调。

既然原先大模型在预训练的时候要预测下一个字符是什么,那么我们收集一堆思维过程给大模型,让它们照葫芦画瓢,没准就有用呢?毕竟一开始的预训练模型就能通过 think step by step 来改善正确率,当然有理由认为我塞更多思维链的数据进去,能进一步改善正确率。

这个路线所面临的核心问题是:并没有那么多思维过程数据能给到大模型。 几乎所有的教科书、教辅书都只会把正确过程给印到答案上,而不会把错误的过程给印上去,但很多时候我们希望模型在想错的时候能稍微多想一步、反思一下,至少能纠正那些看起来明显不对的错误。所以这种思维数据得从头收集。

  • 1、可以让已有的预训练大模型 think step by step 然后筛选出得到正确结果的那些样本。但有人观察到某些大模型的 think step by step 是装模做样分析一通,但实际上给出的结果和它的分析并不符合。换句话说,这样收集到的过程并不一定可靠。
  • 2、也可以召集一堆学生把自己解题时脑袋里的碎碎念给写下来。但是很显然这样做的成本很高,毕竟脑袋里的碎碎念这种东西全部写下来要花的时间可不短。尽管语音输入可以稍微缓解这个问题,但数学公式还是没法语音输入的。
  • 3、蒸馏 OpenAI o1 (preview/mini)。但是 OpenAI 并不开放思维链,而且对任何妄图诱导模型说出自己思维过程的用户都进行严厉打击。

这一类工作的代表作有很多,比如 DeepSeek-R1 蒸馏出来的那些 Qwen 和 Llama 小模型。在这之前也有很多模型,并且报告说自己的模型能达到 OpenAI o1 preview 的水平,那大抵是用了这个方法,效果也确实很不错。只要真的收集到了很多思维链数据,小模型就真的照葫芦画瓢学会思考。

5.4、基于规则的强化学习。

在过程监督以及 MCTS 两种方法中,都会面临怎么去对过程进行拆分、怎么去对过程中的某一步(正确性或者未来预期的正确性)进行打分的问题。有人感到这件事实在是过于困难了,等于是手动往解题这件事上加“结构”(见《苦涩的教训》)。所以,他们打算只看结果,不看过程,让模型自由发挥。

这条路线面临的问题是,没什么人对这件事情有信心。毕竟,你只关心结果,那你怎么知道,模型会按照你期望的方式获得正确的结果呢?

  • 1、模型可能一直都做不对题,从而摆烂。就算做对了,那也是侥幸对的。
  • 2、模型可能找到一些其他的办法稍微多做对几道题,比如背答案,或者找一些逻辑上完全没有关联的规律。总之模型看上去不像是能自己学会思考的样子。
  • 3、想想就觉得这事很难。要是这能成,那我干脆直接设立一个目标,让模型去给我赚钱,那模型就能真的学会怎么赚钱了?这就AGI了?这条路线事实上也挺难,很多人也尝试过,但没调通,放弃了。

这条路线的代表作,自然是 DeepSeek-R1Kimi-k1.5。当然我们现在知道了,OpenAI 的 o1 系列也是这条路线训练出来的——这件事很难,但真的能成,而且效果非常好。在 DeepSeek-R1 出来之后,基本上就只剩下第三和第四条路线了(因为它们的效果最好,而且既然有人能做出来,那自己做不出来肯定是没做对,只要多试试就好了)。

未来展望

那么以后的大模型是不是得标配思维链呢?基本上是的。GPT-4.5 是 OpenAI 公司发布的最后一个非思维链大模型,以后该公司的所有模型都会具有思维链能力。思维链是一个能以最小的代价,而非常显著提升模型智力水平(逻辑能力、解题能力、代码能力)的技术,此外还有一些其他方面的好处,不做白不做。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

img

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

img

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值