AI大模型核心技术精讲：从Prompt到Agent的完整指南（建议收藏）

最新推荐文章于 2025-10-19 16:08:51 发布

原创最新推荐文章于 2025-10-19 16:08:51 发布 · 709 阅读

CC 4.0 BY-SA版权

文章标签：

#人工智能 #prompt #langchain #ai大模型 #机器人 #大模型

本文全面介绍AI大模型相关核心技术，涵盖大模型定义分类、Prompt工程、Token成本控制、RAG检索增强、工具调用、MCP协议及智能体架构等关键概念。从基础理论到实践应用，系统解析了大模型工作原理与优化策略，为开发者提供从入门到精通的技术指南，助力构建高效AI应用系统。

1 、AI 大模型

1.1 AI 大模型定义

AI（Artificial Intelligence）大模型是指通过海量数据训练、具备超大规模参数（数十亿至数万亿）的深度学习模型。其能够理解、生成自然语言，处理图像、音频等多模态数据，并具有强大的复杂任务推理和创作能力。

其主要特点有：

参数量巨大：数十亿至数万亿参数。
预训练 + 微调范式：既使用未标记数据训练以提高模型的泛化能力，又使用少量已标记数据训练以提高模型的精确性。
涌现能力：模型规模达到阈值后，自动获得小模型不具备的能力（如逻辑推理、代码生成等）。
通用性强：同一模型具备处理多种任务的能力。

1.2 AI 大模型分类

AI 大模型可从模态、规模、开源性、技术架构等多维度进行分类，其具体分类如下：

1.2.1 按模态分类

类型	处理对象	代表模型
单模态	文本、图像	GPT-4
多模态	文本 + 图像、文本 + 音频 + 视频	GPT-4V、Gemini、GPT-4o、DeepSeek、Qwen

1.2.2 按规模分类

规模	参数量级	特点	代表模型
中小规模	数十亿到数百亿	对硬件要求低，适合特定任务	LLaMA 3
超大规模	数千亿到数万亿	能力强大，但需要大量计算资源	GPT-4

1.2.3 按开源性分类

类型	特点	代表模型
开源	可免费商用、支持私有化部署	LLaMA 系列、Mistral
闭源	仅支持 API 调用、性能强但费用高	GPT-4、Claude、Gemini
半开源	开放权重但商用需授权	Qwen

1.2.4 按技术架构分类

类型	代表模型	特点	适用场景
自回归模型	GPT 系列、LLaMA	从左到右逐词生成文本	对话、写作、代码生成
自编码模型	BERT、RoBERTa	双向理解上下文语义	文本分类、语义搜索
扩散模型	Stable Diffusion、DALL·E	通过噪声迭代生成图像	AI绘画、图像编辑
混合架构	T5、BART	编码器-解码器联合训练	翻译、摘要

1.3 主流 LLM（大语言模型）对比

1.4 AI 大模型选择

总之，简单需求选小大模型，复杂需求选大大模型，财大气粗的就主打一个任性。

2 、Prompt 提示词

2.1 Prompt 定义

Prompt（提示词）是基于语言的输入、引导 AI 模型产生特定输出的基础。问答场景是 AI 的经典应用场景，Prompt 则指问答场景中的问，换言之，对用户来说，Prompt 则是输入到对话框中的文本。但实际上，它的含义远不止于此。在许多 AI 模型中，Prompt 并非只是一个简单的字符串。

2.2 Prompt 分类

Prompt 可从模态、规模、开源性、技术架构等多维度进行分类，其具体分类如下：

2.2.1 按角色分类

用户提示词（User Prompt）：通常指用户的输入，即问。
系统提示词（System Prompt）：给 AI 模型设定的人格或交互背景，即 AI 模型在交互中所扮演的角色，如医疗咨询、法律顾问等。目的是提高 AI 输出的精确性。
助手提示词（Assistant Prompt）：指 AI 的输出内容，即答。

2.2.2 按功能分类

指令型提示词（Instructional Prompt）：明确告诉 AI 要执行的任务。如：“将以下文本翻译为白俄罗斯语：吧啦吧啦”。
问答型提示词（Conversational Prompt）：模拟自然对话，以问答方式与 AI 交互。
生成型提示词（Generated Prompt）：要求 AI 创造新内容。如写作、设计、生成等。
分析型提示词（Analysis Prompt）：推理或总结信息。如：“请分析这段代码中可能存在的缺陷”。

2.2.3 按复杂度分类

简单提示词（Simple Prompt）：单一指令或任务。如：“你吃了么”。
复合提示词（Composite Prompt）：多个指令或多条任务。如：“请分析这段代码，找出其可能存在的缺陷，并给出优化建议”。
链式提示词（Chain Prompt）：一系列前后相关联的任务，前一个任务的输出作为下一个任务的输入。
模板提示词（Template Prompt）：包含可替换的变量占位符的提示词。如：“假设你是 {某行业名称} 行业专家，请列出关于这个行业的 {有点数量} 个优点。”。

2.3 Prompt 工程

Prompt 的设计是一门艺术，也是一门科学。优秀的 Prompt 设计可显著提升 AI 的输出质量，因此，Prompt 的设计与优化在 AI 应用开发中显得尤为重要。

2.3.1 Prompt 设计基础技巧

指定明确的角色和任务：即通过系统提示词指定 AI 所扮演的角色，以提高其输出的专业性；通过用户提示词明确指定 AI 要执行的任务。
提供足够的上下文信息：提供足够的上下文信息帮助模型了解任务的背景和理解任务的目标，以提高模型输出的准确性。
结构化输入与输出：指定输入输出格式（如列表、表格、字数等）。结构化的输入使模型更加容易理解任务要求，同时使得输出结果更加符合预期。结构化的输出更加易理解。

2.3.2 Prompt 设计进阶技巧

少样本学习：通过提供输入、输出示例，来帮助模型理解任务和规范化输出结果。
思维链提示：引导模型逐步思考问题，帮助模型维持对话上下文，确保相关性和连续性。
分步骤指导：将一个复杂任务拆分成多个简单任务，通过降低任务复杂度来提高输出结果的准确性。

Prompt 的设计是一个持续优化的过程，若模型的输出并不符合你的预期，那么则可以通过持续调试和优化来提高结果的准确性。正所谓种什么因，结什么果，要想 AI 满足你，精确提示词不可少。

3、 Tokens

3.1 Token 定义

Token 可理解为单词片段，可以是单词、标点符号、汉字、词组等，它是大模型处理文本的基本单位。大模型使用费用是按照输入、输出的 Token 数量计算的，一般 Token 越多，费用越高。故控制 Token 数量在 AI 应用开发中非常重要。

3.2 Token 划分规则

不同大模型的 Token 划分规则略有不同，以 DeepSeek 为例：

3.2.1 核心划分特点

中英文统一词表：使用单一多语言词表，同时覆盖中英文字符和字词片段。
最小化冗余：高频词保留完整 token，低频词拆解为字词（如前缀、后缀）。
跨语言共享：相同含义的中英文词可能共享隐空间表示（如 AI 和人工智能的向量相近）。

3.2.2 中文划分规则

规则	示例	token 数量	说明
单字成词	劫、慎	各 1 token	常用汉字独立成 token
高频词保留	难顶	1 token	高频词组不拆分
低频词拆分	量子纠缠 -> 量子 + 纠缠	2 tokens	中低频词组按语义切分
中英混合	DeepSeek模型 -> Deep + Seek + 模型	3 tokens	英文按 BPE 切分，中文按词组合
标点/数字	2025、-> 2025 + 、	2 tokens	数字和标点独立切分

3.2.3 英文划分规则

规则	示例	token 数量	说明
完整单词	How are you -> How + are + you	3 token	高频词独立成 token
后缀变形	doing -> do + ing	2 tokens	词根 + 后缀切分
前缀复合	retry -> re + try	2 tokens	前缀分离
标点符号	oh! -> oh + !	2 tokens	标点独立成 token
数字/特殊字符	+ 10	2 tokens	数字、特殊字符分离

平均统计，1 个英文单词 ≈ 1.2 - 1.5 tokens，一个汉字 ≈ 0.8 - 1.2 tokens。相比英文，中文信息密度更高（俗称压缩包），故相同内容 token 更少。为精确计算成本，实际应用中应使用各模型提供的 token 计算工具来计算 token 数量。

3.3 成本计算

总成本 =（输入 token 数 x 输入单价）+（输出 token x 输出单价）。是的，你没看错，输入单价和输出单价不一样！在上述 Prompt 优化策略的基础上，可通过以下方式优化 token 成本：

精简提示词：精简系统、用户提示词，只保留核心指令。
清理历史会话：token 数会随着历史会话的累积而不断增加，故，可阶段性总结历史会话并定期清理历史会话。
结构化自然语言：使用表格、列表等结构化格式代替长段落描述。

4、 RAG 检索增强生成

4.1 RAG 定义

RAG（Retrieval-Augmented-Generation）即检索增强生成，是一种结合信息检索技术与 AI 内容生成的混合架构。其作用是通过信息检索技术将相关数据融入提示词来提高 AI 大模型输出内容的时效性、准确性和专业性，解决了大模型输出的幻觉问题。

为什么要用 RAG ？

首先，大模型的作用只是理解、生成自然语言和处理图像、音频等多模态数据，并提供强大的复杂任务推理和创作能力。我们可以将它理解为一个强大工厂，具有产品制造能力，但其并不提供原材料。实际上，大模型的本质是 基于概率的续写 而非 事实推理，即其追求的是语言的流畅性而非事实的真实性。即 AI 大模型在通过 NLP（自然语言处理）玩文字排列组合的游戏。

其次，在 AI 大模型经典应用问答场景中，其答的知识大多来源于联网搜索，那这就存在一个问题，因为联网搜索这个动作对用户来讲是不可见的，同时搜索到的结果大多杂乱无章，且我们无法判断其获取的知识的专业性、时效性等。故，大模型的输出内容可能无法满足我们的预期。

然后，在各企业中，企业更希望模型利用自身的业务数据或所在领域的专业数据，同时，企业数据对于企业而言是非常重要的，更不可能出现在互联网上，所以开放平台的大模型 API 是获取到企业数据的。在 AI 应用中，我们通常将企业相关数据称为知识库。

最后，最后没啦。

总之，为了让 AI 大模型的输出更加具有时效性、更加准确、更加专业、更加符合业务场景，我们选择将知识库数据喂给模型，让它进行开卷考试，而不是胡言乱语、自说自话。

4.2 RAG 核心流程

4.2.1 RAG 架构图

如上图所示，RAG 核心工作流程通常包括 数据清洗与切分、向量转换与存储、混合检索与重排、提示增强与引用。其大致流程可分为两步：第一步主要任务是将原始数据清洗整理并切分成小而精的知识碎片，同时给知识碎片打上标签/元数据/关键词等，接着通过 Embedding 模型将知识碎片转换成数学向量，最后将知识碎片对应的数学向量与标签存储到向量数据库（第一步可离线进行）；第二步对应用户与 AI 对话场景，当用户输入问题时，首先通过 Embedding 模型将用户提示词转化成向量，其次使用提示词向量结合相应标签从向量数据库中进行向量相似度检索，然后通过 Rank 模型对检索到的相关切片进行重排序得到最相关的 Top K 切片，再然后将用户提示词与最相关切片结合在一起得到增强后的提示词，最后将增强提示词喂给大模型得到输出结果并引用溯源等操作。简言之，第一步是对原数据的处理得到知识库，第二步是对知识库数据的应用。

RAG 详细工作流程说明见下文。

4.2.2 数据清洗与切分

主要任务是将海量数据转化为小而精的知识碎片。

• 数据清洗：如去除 HTML 标签、无关符号、重复文本，统一数据格式，分类归档数据。
• 数据分块：将清洗后的数据按照一定规则切分成多个知识碎片，并为知识碎片打上标签。切分规则有：按固定长度（如 512 tokens）、按句边界（如换行、章节）、按语义切分、使用 AI 切分等。其要点是要保证知识的完整性和语义的连贯性，若切分结果不尽人意，则可支持人工修改。

4.2.3 向量转换与存储

• 向量转换：通过 Embedding 模型将上一步得到的知识碎片转化为数学向量，使语义相近的内容产生相似的数学特征（如何理解呢？简言之如 “有一说一” 与 “yysy” 这俩长得完全不一样，但其语义一致（即意思一致），所以二者转化后的向量是非常接近的）。
• 向量存储：将向量和标签存入向量数据库并建立快速检索索引（也可使用非向量数据库，当然，成为一名优秀程序员的宗旨是专业的事情交给专业的人做！当然了，最重要的是向量数据库支持高效的相似度检索）。

4.2.4 混合检索与重排

• 混合检索：包括关键词检索、语义检索、知识图谱检索等。当用户提问时，将用户问题（即用户提示词）也转化成向量，然后结合标签/元数据/关键词等过滤机制与向量的相似度检索（常用相似度算法有余弦相似度、欧氏距离等），从向量数据库（知识库）中得到和用户问题相关的多个切片。这个环节也称召回。
• 切片重排：通常经过混合检索后会得到与用户问题相关的多个切片，但考虑到数据切分规则与 token 成本问题，此时需要通过 Rank 模型（排序模型）结合用户问题从多个相关切片中得到最相关的 Top K 个切片。

4.2.5 提示增强与引用

• 提示增强：将上一步得到的切片作为知识材料融合到用户提示词中得到增强提示词，并通过压缩工具压缩增强提示词，然后调用 AI 大模型自动生成结果。大模型在生成结果时会自动关联增强提示词中的知识材料。
• 引用与结果处理：得到结果后，可将知识材料作为来源信息添加到结果中，以增强结果的可解释性和可验证性等（即论文中的参考资料）；同时也可对结果进行格式化处理等。

4.3 RAG 相关名词解释

4.3.1 Embedding 模型

• Embedding 算法：是人工智能领域处理文本、图像等非结构化数据的核心科技，尤其在 RAG、语义搜索、推荐系统等中扮演者至关重要的角色。其将高纬度的离散对象（如词、句、图片等）映射为低纬度的连续向量空间中的稠密向量。简言之，其将人类可理解的自然语言转化为计算机可理解的数学符号（浮点数组）。
• Embedding 模型：是基于 Embedding 算法实现这种转换的机器学习模型，如 Text2Vec、CLIP 等。转换后的数学向量以浮点数组表示，数组的长度表示向量的维度，不同 Embedding 模型产生的向量维度不同，纬度越高，其与自然语言的语义更相近，但同时会占用更多的存储空间和消耗更高的查询性能。

4.3.2 向量数据库

• 向量数据库（Vector Database），是专为存储、检索高维向量数据而设计的数据库系统，是处理非结构化数据（文本、图像、音频等）的核心基础设施。如 Milvus、Pinecone、Qdrant 等。其使用 HNSW/IVF-PQ 索引结构，且支持高效的相似性搜索。
• 当然，部分传统数据库也可支持向量存储，如 PgSQL 可通过 PGVector 插件来支持向量存储，此外还有 RediSearch 等。

4.3.3 Rank 模型

• Rank 模型（排序模型）是信息检索和推荐系统中决定内容展示顺序的核心组件，负责对召回阶段的结果进行精细化排序。
• 精细化排序是指超越简单的相似度计算，综合用户画像、上下文特征进行决策，将召回结果中最相关、最优质的内容筛选出。如推荐系统中会使用平衡点击率、转化率、时长等多维度指标进行排序。RAG 架构中常用的 Rank 模型如 bge-reranker-large、DeepSeek-R1 等。

4.3.4 大模型幻觉

• 定义：大模型幻觉问题是指模型生成结果看似合理但实际是错误的或虚构的。换言之，它在一本正经的胡说八道。

典型类型：

• 事实性幻觉：如 “我是秦始皇，打钱！”，不符合客观事实。
• 伪造性幻觉：无中生有。如数据伪造、虚构引用等。
• 逻辑性幻觉：推理过程存在逻辑错误或生成的内容前后矛盾，即逻辑错误或不能自洽。

产生幻觉的原因：

• 数据层面：训练数据存在错误或过时信息、专业性不够强等。
• 模型机制：大模型的本质是 基于概率的续写 而非 事实推理，即其追求的是语言的流畅性而非事实的真实性。正如前文所述，它更擅长玩弄文字排列组合的游戏。
• 应用层面：提示词太过模糊，优化虚构倾向。

解决方案：

• RAG 知识库：为大模型提供知识库，让它进行开卷考试。
• 思维链引导：引导模型推理，限制其思维发散。
• 动态修正：通过幻觉检测、模型微调等人机协同方式优化模型。

4.4 混合检索策略

在 RAG 应用中，召回的切片直接决定了模型最终输出结果的质量，故召回是一个很重要的环节，要尽可能召回与提示词最相关的切片。在实际应用中，通常通过混合检索的方式召回切片。

4.4.1 常用检索方式

4.4.2 混合检索策略

• 结果融合策略：并行执行多种检索技术，各自返回独立列表，再通过排序模型将结果重排。常用的融合算法有加权非分、RRF、机器学习排序等。
• 查询路由策略：根据查询类型动态选择最合适的检索技术。其路由实现可使用规则引擎（基于关键词、正则表达式）、分类模型（训练 NLP 模型识别查询意图）。
• 级联策略：使用不同检索技术层层过滤。如先使用向量检索得到一批相关切片，然后使用标签/关键词等对结果进行结构化过滤，最后使用排序模型对结果集进行重排并得到 Top K。

5 、Tool Calling 工具调用

5.1 工具定义及作用

5.1.1 定义

工具调用（也称函数调用）是 AI 应用中的一种通用模式，它允许模型与一系列 API 或工具交互，以增强模型的能力。简言之，AI 大模型好比一位身强力壮的战士，为了让它更强大，我们让它左手拿枪，右手拿炮，赋予它更强大的能力！

5.1.2 作用

工具调用中的工具可分为两大类，即信息检索和执行操作。

• 信息检索：这类工具可从外部资源（如数据库、web service、文件系统或网页搜索引擎等）中检索信息。它的目的是增强模型的知识，从而让模型能够回答它不知道的问题。它可以被用在 RAG（检索增强生成）的场景中。如，一个工具可用来检索某个位置当前的天气信息、检索实时新闻或从数据库中查询特定记录等。
• 执行操作：这类工具可用来在软件系统中执行操作，如发送邮件、在数据库中增加记录、提交表单或触发工作流。它的目的是自动化那些需要人工干预或显示编程的任务。如，一个工具可以用于为与聊天机器人交互的顾客预定航班、填写网页表单或在代码生成场景中基于自动化测试实现 java 类。

5.2 调用过程

5.2.1 调用过程图

AI 应用中工具调用过程如下图所示：

5.2.2 调用过程详述

• 服务端在接收到客户端的用户提示词后，会将服务端的一组工具定义信息（如工具名称/标识、描述/功能、参数结构等）添加在发送到大模型的请求中。
• 大模型接收到服务端的请求后首先根据用户提示词推断是否需要调用工具。若需要，则从这组工具定义信息中找到对应的工具定义信息，通过其参数结构生成对应的参数，然后将要调用的工具信息和对应参数发送给服务端；若不需要，则生成对应内容后返回。
• 服务端在接收到大模型的工具调用请求后，根据工具调用请求中的工具信息和参数去调用对应工具，并将工具调用结果返回给大模型。
• 大模型在接收到服务端的工具调用结果后，以该结果作为上下文生成对应内容，并响应给服务端。
• 服务端将大模型最终生成的结果返回给客户端。

通过上述过程所知，AI 大模型的工具调用实际是由服务端（即 AI 应用程序）完成的，大模型只负责决定是否调用工具以及调用哪些工具，然后由服务端完成具体的工具调用。因为工具调用涉及到外部敏感资源（如数据库、文件系统等），所以出于安全性考虑，将工具调用的最终行使权交给应用程序更合理。

6 、MCP 模型上下文协议

6.1 定义及作用

6.1.1 定义

MCP（Model Context Protocol），即模型上下文协议，是一种标准化协议，使模型能够以结构化方式与外部资源或工具交互。它支持多种传输机制，以提供跨不同环境的灵活性。—— Spring AI 官网对 MCP 的定义。

MCP 是一个开放协议，它规范化了 AI 应用程序如何向大模型提供上下文。可将 MCP 想象成 AI 应用程序的 USB 端口，就像 USB 为设备连接到各种外部设备和配件提供了标准化方式一样，MCP 则为 AI 模型连接到不同数据源和工具提供了标准化方式。—— MCP 官网对 MCP 的定义。

6.1.2 作用

首先要明确，MCP 是一个标准或协议，它并不是什么技术或服务，它只是规范化了大模型与外部资源或工具的交互。具体作用如下：

• 统一接口标准：通过统一的协议使 AI 模型可动态发现并使用外部资源，无需重复开发适配不同系统的接口。
• 提升自动化效率：通过自然语言指令直接操作外部工具，增强了 AI 大模型功能。
• 生态扩展支持：作为开放标准，MCP 允许企业或开发者创建自己的 MCP 服务，扩展 AI 的应用场景。

6.2 核心概念

• Resources 资源：MCP 中的核心概念，通过服务端向客户端提供数据或内容，被用作与模型交互的上下文。由客户端控制何时怎样使用资源，即客户端按需索取。
• Prompts 提示词：服务端可提供可复用的提示词模板或工作流，以便用户或大模型直接使用。其作用是标准化和共享通用的大模型交互。
• Tools 工具：MCP 中最强大、最基础的特性，可通过服务端向客户端暴露可执行的函数。通过工具可让大模型与外部系统交互、执行计算或查询信息等。
• Sampling 采样：MCP 中的强大特性，允许服务端通过客户端请求大模型，以实现复杂的代理行为，同时保持数据安全和隐私。
• Roots 根目录：定义了服务端可操作的边界。客户端向服务端声明服务端通过 MCP 可访问的客户端安全目录，即控制服务端在客户端的访问边界。是 MCP 的安全机制。
• Elicitation 动态能力引导：官网说这是一个强大的功能，可使服务端在交互期间向客户端请求其它信息或收集必要的数据，同时保持用户控制和隐私。如连接到服务器是请求用户名、在设置过程中询问配置首选项、创建新资源时收集项目信息等。
• Transports 传输：为服务端和客户端提供的通信提供了基础，如处理消息发送和接收的底层机制。其提供了两种传输类型，即标准输入输出流（stdio）和流式 HTTP（Streamable HTTP）。其中 stdio 适用于本地集成或命令行工具（即本地通信）；流式 HTTP 使用 HTTP POST 为服务器间提供通信，且其支持可选的 SEE 通信。

6.3 MCP 架构

6.3.1 MCP 架构

MCP 的核心是客户端-服务器架构，一个 MCP 客户端可连接到多个 MCP 服务。

• MCP 客户端：任何想通过 MCP 访问外部资源的程序、工具等。如 Claude Desktop、IDEs、AI 工具或应用程序等。
• MCP 服务端：通过标准化的 MCP 协议向外提供具有特定功能的轻量级应用程序。如地图服务、数据服务、资源搜索服务等等千奇百怪的服务。

MCP 服务可以是本地的，也可以是在线的。公共的 MCP 服务类似于第三方资源，如 maven 库、插件库或第三方 API 等，故可通过 MCP 服务市场发布、获取需要的 MCP 服务。如：MCP.so、GitHub MCP、阿里云百炼 MCP 等。
• MCP 客户端和服务端之间支持同步阻塞和异步非阻塞两种连接方式。

6.3.2 交互流程

MCP 客户端与服务端交互流程如上图所示。其流程详细说明如下：

初始化会话：

• MCP 客户端向 MCP 服务端发送连接请求并发送客户端 MCP 协议版本和客户端所具有的能力（如采样支持、通知处理等）。
• MCP 服务端接收到 MCP 客户端的连接请求后接受连接并发送服务端 MCP 版本和服务端所具有的能力（如资源订阅、工具支持、提示词模板等）。
• 客户端收到服务端的响应后向服务端发送确认通知。此时双方成功建立会话，可开始正常消息交换。

• 客户端请求：会话成功建立后，客户端便可向服务端发送请求，如工具调用、资源获取等。
• 服务端请求：

采样请求：

• 服务端向客户端发送采样请求，以便根据采集到的数据优化自身。
• 客户端接收到采样请求后，可向服务端发送相关数据。
• 注：采样功能需要客户端的支持，若客户端不支持采样，则服务端不会进行采样。

资源变更请求：

• 当服务端资源发生变更（如资源更新、工具更新等）时，则可想客户端发送资源变更请求。
• 客户端收到资源变更请求后便可更新本地关于该服务端的资源列表。

7 、Agent 智能体

7.1 定义及核心特性

7.1.1 定义

AI 智能体是指能够感知环境、进行自主决策、并执行行动以实现特定目标的实体或系统。其具有以下特点：

• 自主性：能在一定程度上独立运作，无需外部持续、直接的干预或控制。
• 感知能力：通过传感器、数据输入或其它方式感知其所在的环境（物理世界或数字世界）。
• 反应性：能对环境的变化和事件做出及时、适当的反应。
• 目标导向性：行为是为了实现特定的目标或完成特定的任务。
• 能动性：不仅能对环境做出反应，还能主动采取行动去追求目标，甚至可能改变环境。
• 学习与适应性：能够根据经验改进其行为策略，适应新环境或新任务。
• 社交能力：能够与其它智能体（包括人类）进行交互、沟通、协作或协商。

可以把它想象成数字世界中的独立执行者。它像一位有目标的员工：自己观察情况（感知）、自己思考怎么做最好（决策）、然后自己动手去做（行动），最终把老板（用户或系统设计者）交代的事情完成。它可以是物理的机器人，也可以是纯软件的虚拟助手。

目前常见的智能体如：聊天机器人、智驾系统、游戏 NPC、自动化交易程序、工业机器人、智能家居中枢等。

7.1.2 核心特性

AI 智能体具备以下核心特性：

• 高度自主：能根据高层次目标分解任务、规划步骤。
• 工具使用：能调用外部 API、搜索网络、使用计算器、操作系统软件等扩展自身能力。
• 记忆与学习：能存储和利用历史交互信息。
• 多模态：能理解和生成文本、图像、音视频等多种信息。
• 协作：可与其它智能体或人类分工合作解决复杂问题。

其核心在于强调自主行动能力和目标导向性。

7.2 核心组件

• LLM：LLM（大语言模型）为核心推理引擎，主要负责任务分解（Chat-of-Thought）、规划（ReAct）、和自我反思等。
• 思维链：即 Chat-of-Thought，是一种模仿人类思维的思想，可引导 AI 大模型在解决复杂问题时逐步思考、逐步解决。
• 记忆：一般分为短期记忆和长期记忆。短期记忆指某次会话或任务执行的对话上下文，可保持模型生成的连贯性；长期记忆指外部知识库（如向量数据库）等，可增强模型知识，便于模型学习。
• 工具：为增强模型功能而提供的工具，如数据库访问、文件系统访问、网络搜索、系统软件操作等。可内置，也可通过 MCP 调用。同时可通过工具路由实现工具调用。
• 执行监控：异常处理、成本控制、ReAct 循环控制等。
• 协作：用于多智能体协作。如角色分配（ Agent 角色 Prompt）、竞争协调（拍卖/投票机制）等智能体或与人类之间的交互。

7.3 工作流程

如上图所示，为常见 AI 智能体工作流程。其流程详述如下：

• 1、通过传感器、数据输入或其他方式获得用户目标。
• 2、使用大模型通过思维链模式将复杂任务分解为多个简单任务。
• 3、按照推理-行动-结果分析的步骤执行每一个任务。
• 4、子任务执行完后需确定任务是否完成，以防止陷入死循环。
• 5、任务执行结束后，对结果进行聚合并输出。

7.4 OpenManus

OpenManus 是 MetaGPT 团队开源的智能体框架，其核心特性如下：

• 模块化智能体（多智能体协作机制）：其通过模块化智能体，可使开发者根据需要自由组合不同功能模块。

• BaseAgent：基础抽象智能体，负责任务状态管理、会话记忆、基于步骤的执行循环等。
• ReAct：推理-行动智能体，通过 LLM + CoT 执行子任务。
• TooCalling：工具调用智能体，主要负责工具调用，为 ReAct 中的行动服务。
• ManusAgent：一个支持本地和 MCP 工具的多功能、多用途的智能体示例。

• 强大工具链：内置了一套强大的工具链，如浏览器使用、终端命令执行、文件系统操作、任务规划器、Python 代码执行器、网络搜索、控制台操作、MCP 工具等。
• 支持多种大模型：支持无缝集成大多数大语言模型，如吧啦吧啦。
• 思维过程透明化：用户可清晰看到 AI 代理的思考逻辑和决策过程。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线科技企业深耕十二载，见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事，早已在效率与薪资上形成代际优势，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包：

✅ 从零到一的 AI 学习路径图
✅ 大模型调优实战手册（附医疗/金融等大厂真实案例）
✅ 百度/阿里专家闭门录播课
✅ 大模型当下最新行业报告
✅ 真实大厂面试真题
✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ，朋友们如果有需要 《AI大模型入门+进阶学习资源包》，下方扫码获取~
在这里插入图片描述

① 全套AI大模型应用开发视频教程

（包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点）
在这里插入图片描述

② 大模型系统化学习路线

作为学习AI大模型技术的新手，方向至关重要。正确的学习路线可以为你节省时间，少走弯路；方向不对，努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划，带你从零基础入门到精通！
在这里插入图片描述

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档，我精选了一系列大模型技术的书籍和学习文档（电子版），它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。
在这里插入图片描述

④ AI大模型最新行业报告

2025最新行业报告，针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。
在这里插入图片描述

⑤ 大模型项目实战&配套源码

学以致用，在项目实战中检验和巩固你所学到的知识，同时为你找工作就业和职业发展打下坚实的基础。
在这里插入图片描述

⑥ 大模型大厂面试真题

面试不仅是技术的较量，更需要充分的准备。在你已经掌握了大模型技术之后，就需要开始准备面试，我精心整理了一份大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

以上资料如何领取？

在这里插入图片描述

为什么大家都在学大模型？

最近科技巨头英特尔宣布裁员2万人，传统岗位不断缩减，但AI相关技术岗疯狂扩招，有3-5年经验，大厂薪资就能给到50K*20薪！

不出1年，“有AI项目经验”将成为投递简历的门槛。

风口之下，与其像“温水煮青蛙”一样坐等被行业淘汰，不如先人一步，掌握AI大模型原理+应用技术+项目实操经验，“顺风”翻盘！
在这里插入图片描述

这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。
在这里插入图片描述