大模型入门:大模型推理能力如何实现的

大模型可以分为推理大模型和非推理大模型两大类:

推理大模型:推理大模型是指能够在传统的大语言模型基础上,强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术,比如强化学习、神经符号推理、元学习等,来增强其推理和问题解决能力。例如DeepSeek-R1,GPT-o3等等,它们在逻辑推理、数学推理和实时问题解决方面表现突出。

非推理大模型:适用于大多数任务,非推理大模型一般侧重于语言生成、上下文理解和自然语言处理,而不强调深度推理能力。此类模型通常通过对大量文本数据的训练,掌握语言规律并能够生成合适的内容,但缺乏像推理模型那样复杂的推理和决策能力。例如DeepSeek-V3, GPT-4o等等,主要用于语言生成和理解、文本分类、翻译等任务。

img

相较于非推理大模型,推理大模型的主要区别在于能够在回答问题之前会进行“思考”,正是推理大模型具有推理能力而让人们直接感受到大模型“智”的能力。作为一款专注于推理能力的大模型,DeepSeek-R1是全球第一个直接展示中间思考过程(推理显示化)的大模型,它恰好出现在大模型发展从“生成”向“推理”范式转变的关键时间节点上,同时让人们直观感受到其强大的推理能力,在人工智能领域掀起了千层巨浪,也助推大模型技术发展重心从“生成”到“推理”的进化和转变。

img

推理大模型擅长承担复杂任务,例如解决高级数学问题和具有挑战性的编程任务。那么,推理大模型的推理能力是如何实现的?下面从推理模型的发展历程、训练侧的推理能力提升、推理侧的推理能力提升三个方面进行尽可能的解释这个问题。

注:对于什么是“推理大模型”,截至目前并没有一个准确的定义。借用通俗解释,我们可以把“推理”定义为回答需要复杂、多步骤生成并包含中间步骤的问题的过程。

推理模型的发展历程

1.起源与早期发展

推理模型的概念并非一夜之间凭空出现,其根基可追溯至早期的自然语言处理(NLP)研究。在NLP领域,研究人员长期致力于使计算机能够理解、生成和处理人类语言。然而,传统的NLP方法在处理复杂推理任务时显得力不从心。例如,在数学问题求解、代码生成等需要深度逻辑推理的任务中,传统模型往往难以给出准确答案。

为了突破这一局限,研究人员开始探索新的模型架构和训练方法。其中,基于大规模预训练语言模型(LLM)的推理模型逐渐成为了研究的焦点。LLM通过在海量文本数据上进行预训练,学习到了丰富的语言知识和语义表示,为后续的推理任务提供了强大的基础。

2.技术演进

**闭源推理阶段:2024年9月,OpenAI发布了o1-preview和o1-mini模型,标志着推理大模型正式成为一个新的大模型类别,大模型发展进入了推理时代。**与非推理大模型相比,o1系列模型在回答问题之前会进行“思考”,即通过生成较长的思维链来逐步推导答案。o1系列模型的出现具有里程碑式的意义,它展示了推理模型在解决复杂推理任务方面的潜力。

o1系列模型会“思考”的能力所带来重要意义有两个方面:一方面,它证明了推理模型在特定领域的有效性,推理模型可以非常准确地解决可验证的任务——例如数学和编码任务;另一方面,也激发了研究人员对推理模型进一步优化和完善的热情。随后,其他公司和研究机构也纷纷加入了推理模型的研发行列,推动了该领域的快速发展。

**开源推理阶段:**2025年1月,DeepSeek发布了DeepSeek-R1推理大模型,标志着推理大模型进入了普及开发和应用阶段。作为一款由中国企业研发的、免费的、开源的、低成本训练的、性能比肩OpenAI-o1正式版的大模型,DeepSeek-R1的出现,让推理大模型的技术实现不再神秘:在它的技术报告中第一次清晰完整的描述了推理模型的实现过程,揭示了创建强大推理模型的完整过程,提供了足够的技术细节以便让其他厂商进行复制实现。

DeepSeek-R1在推理能力、多语言支持和训练成本等方面均取得了显著突破。在AIME 2024基准测试中,DeepSeek-R1取得了79.8%的pass@1得分,略微超过了OpenAI的o1-1217模型。在MATH-500测试中,DeepSeek-R1更是取得了97.3%的出色成绩,远超其他模型。此外,DeepSeek-R1还在编程相关任务中展现出了强大的实力,如在代码竞赛任务中表现优异。

训练侧的推理能力提升

下面以DeepSeek-R1推理模型的训练过程为例,陈述推理大模型的推理能力的训练过程。

在了解训练R1模型的过程之前,这里先介绍一下所用到的两个DeepSeek模型:

**DeepSeek-V3:**V3是一个671B参数的混合专家(MoE)模型。为了提高训练和推理效率,V3的设计进行了一系列的优化。

**DeepSeek-R1-Zero:**R1-Zero的训练基于V3基础模型,直接通过准备的高质量的长思维链数据(CoT Data)进行强化学习训练。这个模型的神奇之处在于,它训练的时候,居然不用“监督数据”,也就是没有“老师”在旁边告诉它对错,自己通过强化学习就能慢慢变强,就像一个特别自律的孩子,没有家长和老师盯着,自己就能努力学习进步,它所使用的强化学习算法为GRPO。

注:DeepSeek引入**GRPO(Group Relative Policy Optimization, 组相对策略优化)**进行强化学习,将知识抽象为奖励规则,显著降低对人工标注数据的依赖,大大提高了强化学习的效率和效果,降低强化学习的训练成本。

R1-Zero是DeepSeek的第一个推理模型,该模型纯粹通过大规模的强化学习进行推理,无需任何监督微调(SFT)。该模型会自然探索并学习利用长思维链(Long CoT)通过强化学习解决复杂的推理问题,并出现了“顿悟”时刻。R1-Zero证明了无需监督训练即可开发推理能力。

R1推理模型训练大体分为四个阶段,其中包括两个有监督微调(SFT)阶段和两个强化学习(RL)阶段。每个SFT阶段的目的是为下一步的RL阶段探索提供更好的起点。

img

1.第一次监督微调SFT:冷启动

使用R1-Zero模型**(小学生)**生成少量长CoT输出的推理数据,并进行人工标注(人工筛选收集),这些数据被称为“冷启动”数据,基于这些“冷启动”数据对V3模型进行监督微调(SFT),为V3植入初步推理能力,模型学会了解决推理问题的可行的初始模板,完成冷启动过程。

注:DeepSeek通过较少量的人工标注数据(仅占总训练样本的极小比例)完成模型的基本对齐。

2.第一次强化学习:使用GRPO

根据规则奖励对,直接对大模型进行推理导向的强化学习(GRPO)训练,提升推理能力,并且进行多轮迭代,也就是说从经过一轮强化学习训练的大模型中获取大量推理数据,然后用于下一轮的大模型强化学习训练。

注:GRPO并非传统大规模RLHF需要大量人类反馈,而是将新旧策略的回答两两对比,让模型自主选择更优答案,逐步淘汰较差策略,减少对人工干预的依赖。

3.第二次监督微调:多样本

在推理导向的强化学习后,使用生成的模型收集一个大型且多样化的SFT数据集,迭代生成推理和非推理样本进行微调,增强全场景能力:

模型自生成样本:在某些逻辑推理场景里,DeepSeek也会调用自家先前或其他版本模型(如R0、V3的专家组件)生成初步解答,再由新模型进行对比学习或判分。

数据规模与多样性:通过机器自学习机制,可快速扩展到海量的问答/推理对,让模型面对多样化场景;强化学习过程中,“有错误的样本”也能成为宝贵素材,帮助模型持续纠错与收敛。

4.第二次强化学习:全场景强化学习

R1训练的最后阶段是将模型与人类偏好对齐(RLHF),同时继续训练提升其推理能力,最终生成具有强大推理能力的推理大模型DeepSeek-R1**(博士生)**。

img

推理侧的推理能力提升

在推理大模型中,除了训练过程赋予了大模型的“推理”能力,在推理过程中,也同样进行了优化,以使得推理大模型获得更好的”推理“能力。

1.多轮对话机制:推理Token

以OpenAI的推理大模型o1为例,o1引入了推理Token的概念:

推理模型除了输入和输出token之外还引入了推理token,模型使用这些推理token进行“思考”。在生成推理token后,模型会生成可见的补全内容作为最终答案,同时从上下文中清除推理token。

下图是用户和大模型之间的多轮对话示例。每一轮的输入和输出token被继承,而推理token被丢弃。

Reasoning tokens aren't retained in context

2.提示工程优化

推理模型的提示词和非推理模型的提示词是有很大不同的。一般来说,推理模型在高一层级(概括性好)的提示词的情况下会提供更好的结果,这与非推理模型有些不同,非推理模型通常得益于非常精确的指令。

推理模型就像一个高级同事——你可以给他们一个要实现的目标,并相信他们会解决细节问题。

非推理模型就像一个初级同事——他们将在明确的指令下表现最好,以创建特定的输出。

推理模型的出现,让提示工程的重要性降低了,或者说提示工程(Prompt)的一些技术变得过时了。某些提示工程(如要求模型“一步一步思考”),可能并不会提升性能,有时反而会降低效果。

因此提示工程要对应进行一定的优化:

精准触发模型潜力:通过提示词明确任务目标,帮助模型快速定位推理路径。例如,在代码生成任务中,提示词需包含“生成可执行的Python函数”等明确需求。

减少冗余干预:推理模型对提示的容错性更高,过度拆解步骤可能限制其能力。例如,强行为模型预设“先计算平方和再开根号”的步骤,反而可能导致输出偏离最优解。

总结一下

推理大模型之所以拥有推理能力,根本原因在于大模型在训练过程中,通过高质量大规模逻辑数据(例如程序源代码、数学题等等)进行强化学习即可自主演化出复杂的推理能力,并出现了推理能力的“涌现”现象。

训练完成后,在使用推理大模型时再辅以Prompt优化(包括推理Token和提示词优化),进一步提升推理效果。

推理大模型不再像非推理大模型那样快速生成答案,而是像人类一样通过“长思维链”(Long CoT)分解问题、自我纠错、探索多路径解决方案,尤其在数学、编程等高难度任务中表现优异。

推理大模型的出现,使得大模型从依赖预训练的“直觉反应”转向基于逻辑的“深度思考”。与此同时,多模态大模型、Agent和开源生态的崛起,各种因素综合叠加,加速了工智能技术的发展。推理模型将加速智能体的发展,同时将加速那些更高性能和更低硬件要求的场景的应用落地,如医疗、教育、科研、法律领域等以满足更广泛的垂直领域的应用场景。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值