大模型训练与API应用实战：从原理到落地，手把手教你玩转AI大模型

大模型_

于 2025-05-21 15:17:15 发布

阅读量899

点赞数 27

文章标签：人工智能 microsoft langchain pycharm 开发语言大模型 AI

本文链接：https://blog.csdn.net/2301_76168381/article/details/148117055

版权

从ChatGPT到DeepSeek，AI大模型正掀起新一轮技术革命。你知道这些“智能大脑”是如何训练出来的吗？如何高效地利用大模型API实现应用落地？这篇干货文章，智语星辰团队将为你揭秘大模型训练的核心原理和逻辑，以及情感分析、天气查询、表格提取等API实战案例，助你轻松上手AI大模型应用！

准备：技术术语

首先，让我们简要介绍一些在学习大模型时会遇到的技术术语，如图1所示。你无需立即深入理解它们的含义，只需形成一个初步的认识。

图1 AI大模型的技术术语

一、大模型训练揭秘：从数据到智能的四步进化

1、大模型训练的总体框架

在本文中，我们以GPT的训练过程为例，其训练分成四个阶段，如图2所示。

预训练阶段（Pretraining）
监督微调阶段（Supervised Finetuning）
奖励建模阶段（Reward Modeling）
强化学习阶段（Reinforcement Learing）

图2 GPT训练的四个阶段

算力洞察：预训练阶段消耗超99%的总体算力，资源需求达后续阶段的10-100倍。

2、预训练阶段

(Pretraining)

预训练阶段主要包括以下核心步骤：

（1）获取训练样本数据集

（2）训练样本Token化

（3）预训练，生成基座模型（Base Model）

2.1 获取训练样本集

GPT 的训练样本集主要有两个数据源，如图3所示。

互联网爬取:比如CommonCrawl、C4等。
更高质量数据集:比如Github、Wikipedia、ArXiv论文存档、StackExchange问答网站等。

图3 GPT训练样本集

这些数据会根据一定比例进行混合采样，其中互联网爬取的数据整体占比达到70%以上，其他各种更高质量的数据占比不足20%，即“量大质低”。

2.2 训练样本Token化

如图4所示，在正式预训练之前，训练数据集需要先进行Tokenization预处理，将语料序列（Raw text）转化成Tokens序列，最终转换成计算机可以理解的内部词向量，转换算法有多种方式。

图4 训练语料Token化

那么，大模型的训练究竟需要多少Tokens？这里我们给出两个例子：GPT-3 和 LLaMA-2。如图5所示，预训练过程“惊人”的Token消耗。

图5 GPT-3 和 LLaMA-2 预训练使用的Token数量

2.3 预训练，生成基座模型

用于训练的语料样本包含如此之多的Token，它们应该如何送入GPT Transformer中呢？如图6所示，它并非一个挨一个的送入，而是以一批一批的送入，每一批次的数据可以看成一个数组，其大小为 B * T：

B是数组的行数
T是超参数中的上下文长度

图6 预训练语料的批量传入

对于无监督或自监督学习的模型来说，训练语料本身既蕴含了“输入”信息，也蕴含了期望输出的“目标答案”信息。 比如以“GPT是一个优秀的大模型”这条训练语料为例，从Transformer的视角来看，“GPT是一个优秀的”这句话的预测目标结果就应该是“大模型”。如图7所示，我们站在Token 微观层面看待Transformer的预训练过程，就是一个推理的过程。

图7 Token微观层面看待Transformer的预训练过程

GPT Transformer是一个拥有超大规模参数的深度神经网络模型，正是这些参数的取值（权重）组合在一起，才能输出了相应的预测结果（概率），而Transformer就是通过预测结果，再反向更新自己的参数权重。这个过程叫做反向传播，是预训练中重要的一步，也是产生最大消耗的一步，因为这种更新不是一次性完成的，而是多次迭代、逐步逼近的过程，使得GPT的预测能力越来越强，如图8所示。

图8 预训练迭代

经过预训练的模型就像是一个小学生，他能理解人类基本语言，也可以输出成段的、有意义的文字。但这种理解能力，依靠的并非机械的“背诵词汇”—— 即配置和匹配规则，而是通过训练来改变模型中巨大规模的参数权重。预训练之后的模型叫做基座模型（Base Model）。

基座模型是无监督训练的结果，它能够根据输入的内容预测下一个可能的词汇，尽可能保证它输出的是一段连贯、有意义的文本，因此它更擅长做“完形填空”，但并不能直接用来和人类进行自然语言的对话交互，这主要是因为：

（1）用于训练基座模型的数据构成是一条条、一段段的文本语料，并非真实的人类对话，模型难以理解那些对话式的人类指令，也就无法生成符合人类逻辑的内容。

（2）连贯、自然的对话交互，其上下文信息非常重要，基座模型的工作模式是典型的Request-Response，它自身是没有上下文概念的，无法记住之前的对话内容，也无法生成符合上下文语境的响应。

（3）人类的对话交互往往具有独特的风格，没有针对性训练的基座模型可能无法适应这种多样性，影响生成内容的质量和体验。

3、监督微调阶段(Supervised Finetuning)

训练的第二个阶段是监督微调(Supervised Finetuning，SFT)。和预训练阶段相比，这个阶段最大的变化就是训练数据由“量大质低”变为“量低质高”。在大模型的微调(Supervised Fine-tuning, SFT)阶段，训练数据通常通过人工标注、基于规则的自动化生成或混合方式生成。人工标注确保数据质量，但成本较高；规则生成速度快但适用于结构化任务；混合方式则平衡了质量和效率。微调数据量一般在10万至100万条之间，具体取决于任务复杂度和模型规模（OpenAI的GPT-3微调数据集约为10万条；Meta的LLaMA-2微调数据集规模为100万条左右；更复杂的任务（如多模态任务）可能需要更大的数据量，但通常不会超过1000万条）。数据质量优先于数据量，高质量数据可以显著提升模型性能。微调的数据量要比预训练阶段低几个数量级，同样大幅降低的还有算力资源消耗和训练时间，微调的“微”就体现在这。（如果需要进一步了解，可以参考以下资源：

OpenAI的InstructGPT论文:

Training language models to follow instructions with human feedback；Meta的LLaMA-2论文:

Training data and methodology for LLaMA-2）

那么，这个阶段采用的更高质量的数据长成什么样子呢？其实就是一条条包含明确指令和精确回答的对话语料对，可以看成一种“标签”型数据，因此是一种有监督的训练方式。图9是两个 SFT 的训练数据样例。

图9 SFT训练数据样例

高质量的微调数据是非常宝贵的智力资产，在基座模型普遍开源的情况下，微调数据质量的高低往往成为影响最终模型表现的关键因素。

经过微调阶段训练的模型被称为监督微调模型(Supervised Finetuning Model)，它对人类的问题(也叫做叫指令，即 Instruction)已经能够较好的遵循了，可以作为初级的智能助手(Assistant)，相较基座模型有了长足进步。

(如果有兴趣了解微调，可阅读这篇经典论文：

https://arxiv.org/pdf/2005.14165)

4、奖励建模阶段(Reward Modeling)

训练的第三个阶段，是一个被称为“基于人类反馈的强化学习(Rainforcement Learning from Human Feedback，RLHF)”的过程，这在当下的人工智能领域得到了越来越广泛的关注。而RLHF 又可以分成两个环节：

奖励建模阶段(Reward Modeling)
强化学习阶段(Reinforcement Learning)

先说奖励建模。在这一阶段，模型学习和输出的内容发生了根本性的改变。前面的两个阶段，预训练和微调，模型的输出是符合预期的文本内容；奖励建模阶段的输出不仅包含预测内容，还包含奖励值或者说评分值，数值越高，意味着模型的预测结果越好。

然而以往采用的打分标注方式，常因标注员主观判断差异，引发标注结果混乱。就像给关于香蕉描述的句子打分，不同标注员分数悬殊，让模型训练一头雾水。为破解这一困局，排序任务应运而生，以更直观统一的方式规范标注，提升标注质量，如图10所示。

图10 排序标注

在自然语言处理领域，对生成模型输出结果进行合理排序至关重要。为提升标注效率与准确性，基于InstructGPT标注思路打造的Rank List标注平台应运而生，如图11所示。

图11 Rank List标注平台

5、强化学习阶段

(Reinforcement Learning)

这一节聚焦RLHF的第二个环节：强化学习。这个阶段的训练目标又回归到与预训练和有监督微调阶段相同，进行语言建模，预测接下来要输出的内容。这个阶段非常“聪明”的整合了前面的成果：

· 第二阶段有监督微调的SFT模型。

· 第三阶段奖励建模的RM模型。

具体的整合过程是怎样的呢，如图12所示。

· 针对特定的输入文本，通过SFT模型获得多个输出文本。

· 基于RM模型对多个输出文本的质量进行打分，这个打分实际上已经符合人类的期望了。

· 基于这个打分，为多个输出文本结果加入权重。这个权重其实会体现在每个输出Token中。

· 将加权结果反向传播，对 SFT 模型参数进行调整，就是所谓的强化学习。

图12 强化学习整体流程

6、关于模型训练的总结与思考

通过前面四节的内容，我们对大模型的训练阶段应该有了一个宏观上的认知，做一个总结：

· 阶段一：用大量语料做预训练（Pretraining），不可控的语料生成不可控的知识；

· 阶段二：用少量高质量语料做微调（Supervised Fine-tuning，可控的语料生成可控的知识；

· 阶段三：基于监督微调模型，对同一提示多次调用模型产生不同的输出，人介入，对不同的输出进行评分或排序。基于评分或排序数据，训练出奖励模型（Reward Modeling），生成包含与人类价值观对齐奖励模型；

· 阶段四：综合阶段二和阶段三进行强化学习，调优成最终模型，基于奖励模型生成与人类价值观对齐的可控的知识。

二、大模型API应用实战：4个案例快速落地

【通用配置】

1. 获取api_key

当你需要通过API或SDK方式调用大模型及应用时，请先参考本文获取API Key的方法，作为调用时的鉴权凭证。

(1)开通百炼的模型服务

登录阿里云百炼大模型服务平台后，如果页面顶部显示如图13，你需要开通百炼的模型服务，以获得免费额度。开通百炼不会产生费用，仅调用、部署、调优模型会产生相应费用（超出免费额度后）。

(2)获取API Key，如图14所示。

前往我的API-KEY页面，单击创建我的API-KEY。
在已创建的API Key操作列，单击查看，获取API KEY。

图14 获取API Key

2. 环境配置

如图15所示，在终端执行pip install dashscope安装依赖（确保已安装Python 3.8+）。

图15 环境配置

3. 编程环境选择（如果你有相关编程经验，这一步可以直接跳过）

推荐工具：

Jupyter Notebook：适合新手，交互式编写Python代码，实时查看结果，如图16所示。
VS Code：轻量级代码编辑器，支持Python扩展和调试。
PyCharm：专业Python IDE，适合复杂项目。

图16 Jupyter Notebook

【案例实现】

案例1：情感分析（Qwen-Turbo）

TO DO：对用户观点评论进行情感分析，即正向、负向，使用dashscope中的Qwen-Turbo针对提取的用户评论，可以进行批量化分析。

输出结果：

案例2：天气查询Function Call（Qwen）

TO DO：编写一个天气Function，当LLM要查询天气的时候提供该服务，比如当前不同城市的气温为北京35度、上海36度、深圳37度，天气均为晴天，微风。

1）使用model= “qwen-turbo”

2）编写 function get_current

_weather对于用户询问指定地点的天气，可以获取该地当前天气。

输出结果：

整体工作流程：

• 用户输入查询天气的问题

• 模型理解问题，决定需要调用天气查询函数

• 模型生成函数调用参数（城市、温度单位）

• 程序执行函数调用，获取天气数据

• 将天气数据返回给模型

• 模型生成最终的自然语言回答C

案例3：表格提取（Qwen-VL）

TO DO：表格提取与理解是工作中的场景任务，需要使用多模态模型，这里可以使用通义千问VL系列的模型

Qwen-VL（基座模型）

核心能力：支持图像描述、视觉问答（VQA）、OCR、文档理解和视觉定位

Qwen-VL-Chat（指令微调版）

基于Qwen-VL进行指令微调（SFT），优化对话交互能力

Qwen-VL-Plus / Qwen-VL-MAX（升级版）

性能更强，接近GPT-4V水平，但未完全开源

Qwen2.5-VL（最新旗舰版）

模型规模：提供3B、7B、72B版本，适应不同计算需求。

输出结果：

整体工作流程：

• 使用了多模态模型（qwen-vl-plus），可以同时处理图片和文本

• 支持表格识别和内容提取

• 可以将非结构化的表格图片转换为结构化的JSON数据

案例4：运维事件处置（DeepSeek-R1）

场景描述：运维事件的分析和处置流程。包括告警内容理解，分析方法建议，分析内容自动提取，处置方法推荐和执行等环节。AI大模型可以加速了运维过程中的问题诊断、分析与处置，提高了响应速度和决策质量，降低故障对业务的影响。

运维事件的分析和处置流程。包括告警内容理解，分析方法建议，分析内容自动提取，处置方法推荐和执行等环节，其中：

1、告警内容理解。根据输入的告警信息，结合第三方接口数据，判断当前的异常情况（告警对象、异常模式）；

2、分析方法建议。根据当前告警内容，结合应急预案、运维文档和大语言模型自有知识，形成分析方法的建议；

3、分析内容自动提取。根据用户输入的分析内容需求，调用多种第三方接口获取分析数据，并进行总结；

4、处置方法推荐和执行。根据当前上下文的故障场景理解，结合应急预案和第三方接口，形成推荐处置方案，待用户确认后调用第三方接口进行执行。

输出结果：

结语

大模型技术正从“黑科技”走向“工具箱”，成为企业提效的新引擎。无论是大模型训练还是API调用，核心在于“对齐需求+持续迭代”。不妨现在就开始动手尝试，开启你的AI大模型应用之旅吧！

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！