来源:哆啦的AI产品实践录、PyTorch研习社
当前,我们正处于一个重要的技术转折点。从大型语言模型(LLM)的诞生,到具有人类数字互动的 AI Agent 的出现,技术进步为我们带来了巨大的变革。然而,在实际的商业化应用中,焦点正在发生变化,AI Agent 的关注逐渐转向了具体的落地实践。
过去几个月,AI智能体软件生态系统在记忆能力、工具调用、安全执行和部署等方面取得了显著进展。基于我们在开源AI领域一年多的实践经验和七年以上的AI研究积累,我们决定分享自己构建的"智能体技术栈",以呈现更贴合行业实践的技术全景。
AI Agent 的核心组件
虽然并非每个 AI Agent 都必须包含所有这些组件,但当我们构建 Agent 时,至少会包括以下几个组件和过程:LLM、访问工具(通过函数调用)、一定程度的记忆和推理。
让我们深入了解它们各自的作用:
-
LLM:可以把 LLM 看作是整个操作的“大脑”。虽然并非每一步都由它来负责,但当我们提到 2025 年的 Agent 时,生成模型在操作中扮演着重要的协调角色。简单来说,回到上面提到的例子:正是 LLM 决定了首先查找用户的日历,然后再查看天气。
-
工具:Agent 的一个重要特点是它们通过不同的工具与环境互动。可以将这些工具视为“附加组件”,使 Agent 更加高效。这些工具让 Agent 超越 LLM 的固定训练知识,通过提供高度相关的实时数据(例如个人数据库)和能力(如发送电子邮件),拓宽了它们的应用范围。通过函数调用,LLM 可以直接与预定义的一组工具交互,从而扩大 Agent 的操作范围和效率。
-
记忆:Agent 通常具有某种形式的记忆(包括短期和长期记忆),允许它们存储推理过程的日志、对话历史或在不同执行步骤中收集的信息。我们需要记忆来支持与 Agent 的持续对话,以及那些我们希望稍后再回来的对话。记忆可以用来个性化体验或规划未来的决策。
-
观察与推理:LLM 是问题解决、任务分解、规划和路径选择的核心组件。它允许 Agent 推理一个问题,将其分解为更小的步骤(如果需要),并决定如何以及何时使