智能体之技术原理讲解

常耀斌

已于 2025-04-23 09:36:18 修改

阅读量276

点赞数 7

文章标签：人工智能

于 2025-04-21 09:43:16 首次发布

本文链接：https://blog.csdn.net/Peter_Changyb/article/details/147382007

版权

Manus对现实社会的重要改造在于，能将大模型（如DeepSeek）的逻辑与思维能力转化为实际行动，并应用于实际产品，这是Manus或智能体的核心概念。

智能体的核心概念

那么，智能体与传统人工智能有何区别？传统人工智能主要解决输入与输出的映射关系，例如输入图片判断是狗还是猫，通过输入感知内容，识别歌曲、图片，分析棋局局势，进行对话生成下一句内容等。而智能体有几个关键要素：它不仅进行感知，还像人脑一样进行推理和思维，进行规划，并采取行动，将事情落到实处，这便是简单智能体的概念。伯克利知名教授Russel认为，智能体是能够感知环境并做出响应以实现某些目标的任何实体。

智能体如今取得巨大成功，得益于大模型的迅猛发展。大模型与智能体能够有效结合，是因为智能体围绕其框架有三个关键模块：

一是具备记忆能力，以往人工智能在多轮对话中可能遗忘自身角色，而如今像调用DeepSeek时会为其设定角色，要求大模型也具备记忆功能。

二是具备思考能力，能分析语言语境并反思。

三是能结合外部调用工具，如DeepSeek有联网搜索功能。

ChatGPT的成功主要依赖于三项关键技术：指令微调、情景学习和思维链。

情景学习是指根据上下文信息来优化回答。例如，在DeepSeek中，为了让其给出更优质的答案，我们除了为其设定角色外，还会提供示例，如要求其呈现一份周报。此时，智能体便会利用情景学习，参考类似的上下文信息。

DeepSeek之所以能在全球引发轰动，是因为以往ChatGPT或OpenAI公司所呈现的思维链过程是隐含且闭源的，而DeepSeek首次将整个思维链（Chain of Thought，COT）过程公开，即输入问题后，DeepSeek会展示一段一段的思考过程。大家能感受到，其思考方式与人类相近，会将大问题拆解为不同步骤去解决，这正是思维链过程，也是大模型成功的关键秘诀。

在大模型与智能体结合的过程中，企业部署大模型通常要经历以下过程：先有一个具备世界知识的基座模型，即通识教育阶段；在此基础上，形成不同专业类型的大模型，或将其蒸馏成小型模型，分别用于专门记忆知识、调用工具、掌握流程性知识（如熟悉公司业务流）；最后实现不同大模型之间的协作，这标志着智能体协作时代的到来。

智能体发展路径

从技术角度看，智能体的发展路径如下：单智能体的发展离不开大模型的成功，大模型具备预训练、人类对齐、指令微调、情景学习等能力。进入智能体时代，智能体拥有记忆、规划、动作执行等功能，具备强大的思维链与反思能力，能够调用外部工具学习，还能与机械实体进行具身交互，若将大模型融入人形机器人或某台机器，便赋予其具身智能能力。此后，智能体将走向群体智能，多个智能体交互协作以提供决策。早期大模型受算力限制，存在实时性不足、幻觉现象以及专业知识欠缺等问题，如部分大模型知识仅更新至去年12月，显得“像人工智障”。随着技术演进，这些问题将逐渐被智能体的发展所解决。

智能体与RAG

RAG（Retrieval-Augmented Generation，检索增强生成）技术通过检索增强生成，显著提升了知识问答的准确性和时效性。在构建知识库时，RAG通过向量数据库和动态更新机制，实现了高效的知识检索与生成；在构建知识图谱时，RAG通过GraphRAG和Graphusion等框架，实现了实体关系的精准抽取与图谱融合。

RAG（Retrieval-Augmented Generation，检索增强生成）是什么？RAG是一种结合信息检索与文本生成的人工智能技术，旨在通过引入外部知识库，解决大语言模型的幻觉问题。

RAG的核心目标是让大语言模型（LLM）在回答问题时不再仅依赖训练时的固化知识，而是动态检索最新或特定领域的资料来辅助生成答案。

RAG结合了信息检索与生成模型，通过以下三阶段工作：

检索：从外部知识库（如文档、数据库）中搜索与问题相关的信息。

增强：将检索结果作为上下文输入，辅助生成模型理解问题背景。

生成：基于检索内容和模型自身知识，生成连贯、准确的回答。

智能体与知识库

知识库（Knowledge Base）是什么？知识库是结构化、易操作的知识集群，通过系统性整合领域相关知识（如理论、事实、规则等），为问题求解、决策支持和知识共享提供基础平台。

RAG构建知识库的核心在于将外部知识检索与大语言模型生成能力结合，通过高效检索为生成提供上下文支持，从而提升答案的准确性和时效性。（实战的重点在文本分块Chunking和向量化Embedding）

1. 文本分块（Chunking）

文本分块是将长文本分割为较小、可管理的片段，以便更高效地处理和分析。

2. 向量化（Embedding）

向量化是将文本或数据映射为高维向量空间中的数值表示，以捕获语义特征。

智能体与知识图谱

知识图谱（Knowledge Graph）是什么？知识图谱是一种通过实体与关系构建的语义化网络结构，支持推理与复杂查询，而传统知识库多以非关联的扁平化方式存储数据。

RAG构建知识图谱的核心是通过结合检索技术与大语言模型（LLM），将外部知识库中的结构化与非结构化数据整合为图谱形式。知识图谱为RAG系统注入结构化推理能力，使其从“信息检索器”进化为“知识推理引擎”。

RAG构建知识图谱的关键在于检索与生成的协同，其流程包括：

数据预处理：将文档分割为文本块（chunking），并通过命名实体识别（NER）提取实体与关系。
知识图谱索引：基于提取的实体与关系，构建初始知识图谱后，运用聚类算法（例如Leiden算法）对图谱中的节点进行社区划分。
检索增强：在用户查询时，通过本地搜索（基于实体）或全局搜索（基于数据集主题）增强上下文，提升生成答案的准确性。

智能体与Text2SQL

大模型的提示工程（Prompt Engineering）是通过精心设计输入文本（Prompt），引导大语言模型（LLM）生成符合预期输出的技术。在Text2SQL（自然语言转SQL）和Text2API（自然语言调接口）场景中，提示工程的核心目标是将自然语言问题转化为准确的 SQL 查询和具体的 API 调用参数。

Text2SQL和Text2API的提示工程本质是是将领域知识显式化，通过角色定义和业务知识注入（如数据库Schema、API文档），让模型“理解”自然语言背后的真实意图，并将其转化为可执行的结构化指令。

Text2SQL（文本转SQL）是什么？Text2SQL是一种将自然语言描述的查询需求，自动转换为结构化查询语言（SQL）的技术。

如何实现Text2SQL？通过自然语言处理技术进行语义解析（包括实体识别、关系抽取、意图理解），结合预加载的数据库Schema信息，利用大语言模型（LLM）生成符合语法规范的SQL语句。

1. 输入解析：用户提问 → 提取关键实体（表名、字段、条件）。

- 例：“统计2024年销售额超过100万的产品” → 提取“销售额（sales）”、“产品（product）”、“年份（year=2024）”、“条件（>1,000,000）”。

2. Schema绑定：结合数据库表结构（Schema），明确字段和表关系。

关键：在Prompt中提供Schema，如：

表orders: id (int), product_id (int), sales (float), date (date)  
表products: id (int), name (str), category (str)

3. SQL生成：模型根据Schema和用户意图生成查询语句。

智能体与Text2API

Text2API（文本转API调用）是什么？Text2API（文本转API调用）是一种将自然语言描述的用户需求自动转换为对应用程序接口（API）的调用请求的技术。

如何实现Text2API？通过自然语言处理技术进行语义解析（含意图识别、实体抽取、上下文理解），结合预加载的API文档信息，利用大语言模型（LLM）生成符合语法规范的API调用请求。

1. API目录管理：维护API文档（端点、参数、权限）。

例：邮件API文档：

POST /send_email  参数：to (str), subject (str), content (str)  权限：需用户OAuth令牌

2. 意图识别：模型解析用户指令，匹配目标API。

- 例：“给Allen发邮件，主题是项目开发进度，内容为‘本周完成80%’” → 调用 /send_email。

3. 参数填充：提取并验证参数（如邮箱、内容）。

数据蒸馏

数据蒸馏（Data Distillation）是什么？数据蒸馏通常关注于数据的处理和优化，旨在从原始数据集中提取出更具代表性和有用性的数据子集。

原始数据集：包含大量的、可能包含冗余和噪声的数据。
数据预处理：对原始数据进行清洗、去噪等处理，以提高数据质量。
特征提取：从数据中提取出关键特征，这些特征能够反映数据的本质属性。
数据降维：通过减少数据的维度，去除冗余信息，得到更为简洁的数据集。
精炼数据集：经过上述步骤处理后的数据集，具有更高的质量和代表。

在深度学习中，数据蒸馏通常是通过逐层过滤和提取特征来实现的。每一层都会对数据进行一定的变换和处理，使其更加接近最终的目标表示。

“数据蒸馏是一个数据处理与优化技术，它旨在从包含大量可能冗余和噪声的原始数据集中，通过一系列步骤如数据预处理、特征提取、数据降维等，提炼出一个高质量、低冗余且高度代表性的精炼数据集。”

知识蒸馏

知识蒸馏（Knowledge Distillation）是什么？知识蒸馏则是一种模型压缩和知识迁移的方法，旨在将大型教师模型中的知识转移到小型学生模型中。

教师模型（已训练）：一个高精度、但可能较为复杂的大型模型。
提取知识：从教师模型的输出（如概率分布、中间特征等）中提取出有用的知识。
学生模型（待训练）：一个轻量化、但性能可能较低的小型模型。
蒸馏训练：利用教师模型提取出的知识，作为学生模型的训练目标进行训练。
精炼学生模型：经过蒸馏训练后的学生模型，能够学习到教师模型的泛化能力，从而达到或接近教师模型的性能。

知识蒸馏从多个已经训练好的大型模型中，将知识转移给一个轻量级的模型。它主要关注于模型之间的知识传递，通过利用教师模型的输出（如概率分布或中间特征）作为软目标，来指导学生模型的训练。

“知识蒸馏是一种模型压缩技术，旨在将大型、高精度教师模型中的关键知识提炼并传递给轻量化学生模型。通过这一过程，学生模型能在保持低计算成本的同时，学习到教师模型的泛化能力，实现性能的大幅提升，接近教师模型的性能水平。”