大模型Agent智能体实操笔记，超干分享！

最新推荐文章于 2024-10-01 08:00:00 发布

模型优化师

最新推荐文章于 2024-10-01 08:00:00 发布

阅读量509

点赞数 8

文章标签：笔记人工智能语言模型 ai agi LLM Agent

本文链接：https://blog.csdn.net/2401_85325557/article/details/142642554

版权

什么是大模型？

大模型，即 Large Language Model（LLM），运用深度学习技术，凭借互联网海量数据训练，参数量级高达数十亿至数万亿。这使得大模型能学习复杂细节，具备强大问题解决能力，跨领域能力出色，涵盖自然语言处理、图像识别等，比如：GPT 系列展示的智能对话与文本生成。其“多模态”特性覆盖文本、语音、图片、视频等格式，但训练需巨大计算资源、时间和成本，通常由大公司承担，类似移动互联网中的操作系统。

基础模型预训练后，针对特定任务还需微调以优化性能，该过程虽较预训练成本低，但仍具一定门槛。

目前国内外主要的大模型厂商及产品如下：

OpenAI：GPT 系列, 最新的是 GPT-4o
Anthropic：Claude，最新的 Claude 3.5
Google：Gemini
Meta：LLaMA
Microsoft：与 OpenAI 合作，也推出了自己的大模型，比如：Phi-3
百度：文心一言
阿里巴巴：通义千问
腾讯：混元大模型
字节：豆包
清华智谱：GLM-4

此外，还有创业公司，比如：前段时间火了一把的月之暗面 Kimi。

什么是智能体 Agent？

大模型，比如：GPT 擅长处理多样任务，比如：解答、撰写文档、内容提炼及翻译，但直接面向大众略显不便。因此，类GPT聊天机器人应运而生，作为用户与大模型间的桥梁，尽管它们展示出广泛能力，聊天场景的通用性有时效率不高。

Agent 智能体，作为 AI 核心理念，代表着能感知环境、学习并自主决策以实现目标的实体，无论实体还是虚拟形态，皆展现出高度自主性和智能互动，类似科幻作品中的全能机械助手。

大模型（LLM）智能体，是一种利用大语言模型进行复杂任务执行的应用。如果将大模型（LLM）比作底层操作系统（i比如：iOS 和 Andriod）的话，那么智能体（Agent）就是上层 App。

基于大模型的智能体，则是自主学习、适应并决策的高级存在，无需持续人为干预，超越传统自动化局限，在动态环境中寻找创造性解决方案。将大模型视为操作系统，智能体便是其上的应用程序，工程技术团队正聚焦此领域，推动大模型智能体在复杂任务执行中的应用与发展。

Agent 智能体架构设计

在构建大模型智能体(LLM Agent)的过程中，LLM 扮演着核心控制器或“智慧中枢”的角色，统筹并指导完成任务和响应用户需求的全方位行动。智能体则通过激活 LLM 的强大功能执行任务，同时整合规划策略、记忆功能及高效工具运用等重要组件，共同协作实现既定目标。

大模型智能体框架的核心组件包括：

1. 用户交互界面：捕捉用户的询问或指令。

2. 核心智能体引擎：作为系统的指挥中枢，协调各功能模块。

3. 策略规划模块：为智能体规划后续行动路径。

4. 记忆系统：维护智能体的长期知识库与短期情境记忆。

5. 工具集成层：使智能体能与外界工具和服务互动，执行具体操作。

这些模块协同运作，使大模型智能体能够应对各类请求，无论简易或复杂，不仅直接回应查询，更能深入解析问题，执行多阶任务。智能体的这种广度与深度能力，在复杂信息处理、数据分析乃至视觉呈现等领域展现出巨大应用潜力。

下图提供了智能体架构的详尽视图。

对于没有接触过智能体的人，上述框架可能有点抽象，下面我们以一个例子来说明智能体的架构，假如我们想让AI完成以下任务：

用户：明天上午要去 A 地出差，下午与 X 开会，帮我订好机票、酒店和会议日程。

对于人类助理来说，这是很简单的事情，但以目前大模型的能力，还难以解决这个问题。而从技术角度来说，可以开发一个基于大模型的智能体来解决这类问题，这个智能体主要包含以下部分：

1. 规划：通过调用大模型的能力将任务分解，先分为出差行程安排和会议预约两个子任务。
    1.1 出差行程安排继续分解为：
       1.1.1 从用户所在地到所在城市机场：
          a. 其中用户所在地通过感知环境信息获得（可以通过用户初始设置或过往历史存放在记忆组件里面）
          b. 决定出行时间
          c. 决定出行方式：如乘坐出租车，预约
       1.1.2 从用户所在城市机场到A地机场：
          a. 决定出行时间
          b. 决定出行方式，预约
       1.1.3 从A地机场到A地某酒店：
          a. 预订A地某酒店
             1. 决定入住时间
          b. 决定从A地机场到达酒店方式：如乘坐出租车，预约
    1.2 会议预约继续分解为：
       1.2.1 查看用户和X的日程，找到二者都空闲的时间段
       1.2.2 确定会议时间，预约会议
2. 记忆：
    2.1 用户所在地应存放在长期记忆中。
    2.2 根据规划的分解，后面的步骤会依赖前面步骤的结果，那么需要把前面步骤的执行结果存放在短期记忆中。
3. 工具使用：
    3.1 通过调用网约车平台接口预约出租车（需要用户授权，授权信息也可以存储在长期记忆中）
    3.2 通过调用航班信息查询接口获取航班信息，调用航班预订接口订机票（需要用户授权，授权信息也可以存储在长期记忆中）
    3.3 通过调用OTA平台接口完成酒店预订（需要用户授权，授权信息也可以存储在长期记忆中）
    3.4 通过调用支付接口完成支付（需要用户授权，授权信息也可以存储在长期记忆中）
    3.5 通过调用日历接口完成日程查询和会议预订

智能体相关技术

网络上频繁提及的智能体技术，比如：TOT、提示链、RAG、ART、ReAct 等，虽归于提示词策略领域，却多应用于复杂智能体构建，非日常聊天场景常态。以下是这些术语的简化释义：

TOT（思维树）：升级版 COT，通过多路径探索问题解答，形成分步的树形结构，助AI全面考量得出最佳解。
提示链：串联各提示词以接力形式引导AI完成任务，层层递进实现目标。
RAG（检索增强生成）：融合信息检索与AI生成，先搜后创，利用内外部数据优化输出。
ART（自动推理与工具使用）：借力预设任务库，智能体匹配案例、自动推理，并调用工具执行，实现任务自动化。
ReAct（推理+行动）：交替进行逻辑推理与实际行动，使 AI 能互动查询，基于实况反馈优化回答，提升实用性和准确性。

单智能体和多智能体

单智能体能够自主执行任务，但面对复杂挑战时可能力有不逮。解决方案是构建多智能体网络，它们协同作业，形成一个综合系统应对用户需求。

以软件开发流程为例：

需求分析：智能体模拟产品经理与用户交流，明确需求并输出设计文档。
架构设计：另一智能体担任架构师角色，依据设计文档制定技术方案。
项目管理：再有智能体扮演项目经理，分配任务并监控进度。
编码实施：编程智能体负责编写代码模块。
质量保证：测试智能体编写测试案例并执行测试。
部署运维：最后，运维智能体负责系统上线与维护。

这些角色特化的智能体协同工作，形成一个高效的软件开发团队，直面并解决用户的具体需求。此概念已非理论，现有企业正积极探索并实践，比如：GitHub上这个项目（https://github.com/assafelovic/gpt-researcher），展示了如何利用多智能体系统针对用户查询自主搜集信息、规划研究议程，并最终产出研究报告，彰显了多智能体协作的强大潜力和现实应用。

智能体开发框架

在大模型智能体的构建技术领域，LangChain 作为一个流行的开源框架备受瞩目，它专注于促进大型语言模型的应用开发，广泛见诸于众多在线文章之中。LangChain 官方主要支持 Python 和 JavaScript 两种编程语言，而社区则展现了高度的积极性，为其他语言环境贡献了诸如`LangChain4J`和`LangChainGo`等移植版本。

除 LangChain 之外，还有诸如 AutoGPT 及微软的 AutoGen 等框架，这些工具多数围绕 Python 这一主流开发语言构建，旨在简化大模型的集成与应用过程。

值得注意的是，针对具备 Java 技术栈的开发者，Spring AI 框架在Java/Spring 生态系统内提供了一种定制化选择，进一步丰富了技术方案的多样性。

尽管上述框架面向技术开发者设计，要求一定的学习投入，但为了解放更多创意并加速智能体的开发进程，众多服务商已推出低代码乃至无代码的智能体搭建平台。这意味着，即便是没有编程背景的用户，也能迅速上手，打造出个性化的智能解决方案。