步骤一:选择正确的大模型(LLM)
挑选合适的大模型对于 AI Agent 智能体达到预期的性能表现至关重要。在决策过程中,需要考虑多个因素,如许可协议、成本和语言兼容性。在构建 LLM Agent 时,最关键的考量是模型在编码、工具调用和推理等核心任务上的表现。以下是一些用于评估的基准:
- 大规模多任务语言理解(MMLU)(用于推理能力);
- 伯克利函数调用排行榜(用于工具选择和调用);
- HumanEval 和 BigCodeBench(用于编码能力);
另一个重要的考量因素是大模型的上下文窗口大小。AI Agent 智能体的工作流程可能会消耗大量 token——有时甚至达到10万或更多——因此,更大的上下文窗口将非常有益。
以下是一些你可能需要考虑的大模型:
- 闭源模型:GPT4-o、Claude 3.5
- 开源模型:Llama 3.2、Qwen 2.5
通常情况下,大模型越大,性能表现越佳,但能够在本地运行的较小模型也是一个不错的选择。对于较小的模型,你可能只能处理更简单的用例,并且可能只能将你的 AI Agent 智能体与一两个基础工具相连接。
步骤二:定义 AI Agent 智能体的控制逻辑
简单 LLM 与 AI Agent 智能体之间的核心差异体现在系统提示词(System Prompt) 上。
在 LLM 的情境中,系统提示词是在模型开始处理用户查询之前,提供给模型的一系列指令和背景信息。
可以在系统提示词中明确 LLM 所应展现的 AI Agent 智能体行为。
以下是一些常见的 AI Agent 智能体模式,它们可以根据您的具体需求进行调整:
- 工具使用:AI Agent 智能体判断何时应将查询导向适当的工具,或者何时依赖自身的知识库。
- 反思:AI Agent 智能体在向用户回复之前,会审视并修正其答案。大多数 LLM 系统也可以加入反思步骤。
- 推理后行动(ReA****ct):AI Agent 智能体会不断推理如何解决查询,执行操作,观察结果,并决定是否需要采取进一步行动或给出回应。
- 计划后执行:AI Agent 智能体会预先规划任务,如有必要,将任务分解为子步骤,然后逐一执行这些步骤。
最后两种模式(ReAct 和计划后执行)通常是构建多功能单一 AI Agent 智能体的良好起点。
为了有效地实现这些行为,需要进行一定的提示词工程(Prompt Engineering)。你可能还需要利用结构化生成技术。这实质上是指引导 LLM 的输出,使其符合特定的格式或模式,以确保 AI Agent 智能体的响应与您期望的沟通风格保持一致。
步骤三:定义 AI Agent 智能体的核心指令
我们常常默认 LLM 拥有一系列即时的功能。虽然某些功能可能非常出色,但也有一些可能不完全符合我们的期望。为了实现我们所追求的性能,在系统提示词中详尽地阐述我们希望包含和排除的功能至关重要。
这可能涉及以下指导:
- AI Agent 智能体的名称和角色:指定 AI Agent 智能体的名称及其用途。
- 语气和简洁度:确定 AI Agent 智能体的回应应该是正式还是非正式,以及回应的简洁程度。
- 使用工具的时机:明确何时应依赖外部工具而非模型自身的知识库。
- 错误处理:指导 AI Agent 智能体在遇到工具或流程问题时应采取的行动。
步骤四:定义并优化你的核心工具
工具为你的 AI Agent 智能体提供了超乎寻常的能力。通过使用一组精心定义的工具,你可以实现多样化的功能。其中不可或缺的工具包括代码执行、网络搜索、文件读取和数据分析。
对于每一项工具,你需要定义以下内容,并将其纳入系统提示词的一部分:
- 工具名称:为功能提供一个唯一且具有描述性的名称。
- 工具描述:清晰地阐述工具的作用及其适用场景。这有助于 AI Agent 智能体判断何时应该选用该工具。
- 工具输入格式:描述必需和可选参数、它们的类型以及任何相关限制的格式。AI Agent 智能体将根据用户的查询使用这些信息来填充所需的输入。
- 关于工具运行位置或方法的指示词。
在某些情况下,你可能需要优化工具以达到预期的性能。这可能包括对工具名称或描述进行快速工程调整、设置高级配置以处理常见问题,或者对工具的输出进行筛选。
步骤五:制定可靠的记忆处理策略
LLM 受限于其上下文窗口,即它们一次能够“记住”的令牌数量。这种记忆空间很快就会被多轮对话中的历史交流、冗长的工具输出或 AI Agent 智能体依赖的额外上下文所充满。因此,确立一个有效的记忆管理策略至关重要。
在 AI Agent 智能体的框架内,记忆涉及系统存储、检索和利用过往互动信息的能力。这允许 AI Agent 智能体随时间维持上下文,基于先前的交流优化其响应,并交付更加定制化的体验。
常见的记忆管理策略包括:
- 滑动记忆:保留最近 k 轮对话回合的记忆,并移除较早的对话回合。
- 令牌记忆:保持最后n个令牌,遗忘其他令牌。
- 总结记忆:利用 LLM 对每个对话回合进行总结,并移除单独的消息。
此外,可以训练 LLM 识别关键信息以存储在长期记忆中。这样,AI Agent 智能体就能“记住”关于用户的重要细节,从而提供更加个性化的体验。
至此,我们概述的五个步骤为构建 AI Agent 智能体奠定了基础。但是,如果在当前阶段通过 LLM 处理用户查询,结果会怎样呢?
此时,AI Agent 智能体会生成原始的文本输出。那么,我们如何使其执行后续操作呢?这就需要解析和编排的功能了。
步骤六:解析 AI Agent 智能体的原始输出
解析器是一种功能,它负责将原始数据转换成应用程序能够理解和操作的格式,例如带有属性的对象。
在构建我们的 AI Agent 智能体时,解析器需要辨识在第二步中设定的通信结构,并且输出结构化数据,例如 JSON 格式。这样做可以让应用程序更轻松地处理和执行 AI Agent 智能体的后续动作。
注意:某些模型供应商(例如 OpenAI)可能默认提供可以直接解析的输出。而对于其他模型,尤其是开源模型,可能需要额外的配置来生成可解析的输出。
步骤七:安排 AI Agent 智能体下一步行动
最终步骤是确立编排逻辑。这一逻辑决定了在 LLM 产生输出之后将发生什么。基于输出内容,你可以执行以下操作:
- 调用工具,或者
- 返回答案 — 这可以是针对用户查询的直接回应,或者是请求更多信息的后续动作。
当触发工具调用时,工具的输出会被送回给LLM(作为其工作内存的一部分)。随后,LLM将决定如何处理这些新数据:是进行另一个工具调用还是向用户给出答案。
以下是在代码中实现这种编排逻辑的一个示例:
步骤八:多 AI Agent 智能体的设计
尽管当前的 LLM 非常强大,但它们面临一个主要的挑战:处理信息过载的能力有限。过多的上下文或工具使用可能会导致模型负担过重,进而影响性能。单一的通用 AI Agent 智
能体最终可能会触及这个极限,尤其是考虑到 AI Agent 智能体对 token 的巨大需求。
在某些情况下,采用多 AI Agent 智能体架构可能更为合适。通过将任务分配给多个 AI Agent 智能体,可以避免单个 LLM Agen t的上下文过载,并提升整体的运作效率。
尽管如此,单一的通用 AI Agent 智能体架构是原型设计的极佳起点。它允许你快速验证用例并识别系统开始出现问题的点。通过这个过程,你可以:
- 了解哪些任务部分真正从 AI Agent 智能体方法中受益。
- 确定可以在更复杂的工作流程中作为独立模块分离的组件。
从单一 AI Agent 智能体出发可以提供宝贵的洞见,这些洞见在扩展到更复杂的系统时有助于优化你的方法。
准备好深入探索并开始构建了吗?使用框架是快速测试和迭代 AI Agent 智能体配置的有效途径:
如果计划使用 Llama 3 等开源模型,可以尝试 Bee Agent Framework。
如果计划使用 OpenAI 等前沿模型,可以尝试 LangGraph。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。