代理工作流:RAG、Deep Research与代码助手都在用的技术

我们经常看到这些名词:AI 代理(AI agents)、代理 AI(Agentic AI)、代理架构(Agentic architectures)、代理工作流(Agentic workflows)。

代理无处不在,但它们究竟是什么?它们真的能做些什么吗?

新技术带来了混乱的术语、不切实际的期望和自封的网络专家的混合体。在本文中,我们将透过围绕 AI 代理的喧嚣和炒作,解释和说明代理 AI 的一个关键原则:代理工作流。

代理本身几乎什么都做不了。它们需要被赋予角色、目标和结构来实现目标。这就是工作流发挥作用的地方。理解了代理工作流,就理解了 AI 代理的运作方式。

本文将从以下部分展开:

  1. AI代理的核心组成部分:推理、工具和记忆

  2. 代理工作流的基本概念

  3. 代理工作流的三种模式

  4. 代理工作流的三种应用场景:RAG、Deep Research 与代理代码助手

  5. 代理工作流的两个案例:Claygent 与 ServiceNow AI Agents

  6. 代理工作流的利与弊

关于代理工作流,PPIO派欧云支持在 20+ 主流平台中调用平台模型,登录PPIO派欧云官网,输入邀请码【JMZ5F8】注册,即可获得15无门槛券。

什么是 AI 代理?

AI 代理是将大语言模型(LLM)用于推理和决策与现实世界互动的工具相结合的系统,使它们能够在有限的人类参与下完成复杂任务。代理被分配特定角色,并被赋予不同程度的自主性以实现其最终目标。它们还配备了记忆,使其能够从过去的经历中学习,并随着时间的推移提高性能。

尽管 AI 代理旨在进行半自主决策,但它们依赖于更大的组件框架才能正常运行。这个框架包括使代理能够有效推理的大语言模型、帮助代理完成任务的工具以及使代理能够从过去的经历中学习并随着时间的推移改进响应的记忆。

推理

AI 代理之所以有效,部分原因在于其迭代推理能力,本质上使代理能够在整个解决问题过程中积极“思考”。AI 代理的推理能力源于其底层的大语言模型,并具有两个主要功能:规划和反思

在规划阶段,代理执行任务分解,即将更复杂的问题分解为更小、可操作的步骤的过程。这种技术使代理能够系统地处理任务,并允许它们针对不同任务使用不同的工具。它还允许查询分解,即将复杂查询分解为更简单的查询,从而提高大语言模型响应的准确性和可靠性。

代理还通过反思其行动的结果来进行推理。这使它们能够根据结果和从外部来源获取的数据评估和迭代调整其行动计划。

工具

大语言模型具有静态的、参数化的知识,这意味着它们的理解仅限于训练期间编码的信息。为了将其能力扩展到原始数据集之外,代理可以利用外部工具,如网络搜索引擎、API、数据库和计算框架。这意味着代理可以访问实时外部数据以指导其决策,并完成需要与应用程序交互的任务。

工具通常与权限配对,例如查询API、发送消息或访问特定文档或数据库模式的能力。下表概述了AI 代理的几种常见工具及其执行的任务。

工具

任务

互联网搜索(Internet search)

检索和总结实时信息

向量搜索(Vector search)

检索和总结外部数据

代码解释器(Code interpreter)

迭代运行代理生成的代码

API

检索实时信息并使用外部服务和应用程序执行任务

当大语言模型选择一个工具来帮助完成任务时,它会进行一种称为函数调用(function calling)的行为,将其能力扩展到简单的文本生成之外,并使其能够与现实世界互动。

使用哪种工具的选择可以由最终用户预先确定,也可以留给代理自行决定。让代理动态选择工具对于解决更复杂的任务很有帮助,但对于更简单的流程,预先定义的工具可能更高效。

记忆

从过去的经历中学习并记住行动发生的上下文,是代理工作流与纯大语言模型驱动的工作流区分开来的部分。记忆是使代理能够捕获和存储跨多个用户互动和会话的上下文和反馈的关键组成部分。代理有两种主要类型的记忆:短期记忆和长期记忆。

短期记忆存储更直接的信息,如对话历史记录,这有助于代理确定下一步要采取哪些步骤以实现其总体目标。长期记忆存储随着时间积累的信息和知识,贯穿多个会话,允许代理个性化并随着时间的推移提高性能。

什么是代理工作流?

一般来说,工作流是一系列相互连接的步骤,旨在实现特定的任务或目标。最简单类型的工作流是确定性的,意味着它们遵循预定义的步骤序列,并且无法适应新信息或变化的条件。例如,一个自动化的费用审批工作流可能如下所示:“如果费用标记为‘食品和餐饮’且少于30美元,则自动批准。”

然而,有些工作流利用大语言模型或其他机器学习模型或技术。这些通常被称为“AI 工作流”,可以是代理的或非代理的。在非代理工作流中,大语言模型被提示执行指令并生成输出。例如,文本摘要工作流将较长的文本作为输入,提示大语言模型进行摘要,并简单地返回摘要。然而,仅仅因为一个工作流使用了大语言模型,并不一定意味着它是代理的。

代理工作流是由代理或一系列代理动态执行的一系列相互连接的步骤,以实现特定的任务或目标。用户授予代理权限,这赋予它们有限的自主性,以收集数据、执行任务并在现实世界中做出决策。代理工作流还利用 AI 代理的核心组成部分,包括其推理能力、使用工具与环境互动的能力以及持久记忆,将传统工作流完全转变为响应式、适应性和自我进化的过程。

是什么使工作流代理化?

当一个或多个代理引导和塑造任务的进展时,人工智能工作流就变得代理化了。将代理添加到现有的非代理工作流中,创造了一种混合方法,将结构化工作流的可靠性和可预测性与大语言模型的智能和适应性结合起来。代理工作流以其能够:

  • 制定计划。代理工作流从规划开始。大语言模型用于通过任务分解将复杂任务分解为更小的子任务,然后确定最佳执行路线。

  • 使用工具执行行动。代理工作流使用一组预定义的工具和权限来完成任务并执行其生成的计划。

  • 反思和迭代。代理可以在每个步骤评估结果,如有必要调整计划,并循环回溯,直到结果令人满意。

我们需要区分三种类型的工作流:传统非 AI 工作流、非代理 AI 工作流和代理工作流。传统基于规则的工作流与 AI 工作流之间的区别在于使用预定义步骤与使用 AI 模型来完成任务。其次,非代理和代理 AI 工作流之间的区别在于使用静态 AI 模型与动态 AI 代理。这使得代理工作流比非代理工作流更具适应性和动态性。

代理架构与工作流的区别

随着任何新兴技术的出现,都会涌现大量新术语。尽管有些人可能会交替使用“代理架构”和“代理工作流”这两个术语,但它们实际上有一个重要的区别。

代理工作流是代理为实现特定目标所采取的一系列步骤。这些步骤可能包括使用大语言模型来制定计划、将任务分解为子任务、使用网络搜索等工具来完成任务,以及使用大语言模型来反思任务的结果并调整其总体计划。

另一方面,代理架构是用于实现给定任务的技术框架和整体系统设计。代理架构是多样化和富有创造力的,但总是至少包含一个具有决策和推理能力的代理、代理可以用来实现其目标的工具以及短期和长期记忆系统。

代理工作流中的模式

代理工作流是完成特定任务(也称为最终目标)所采取的结构化步骤序列。因此,当我们谈论代理工作流时,我们谈论的是使代理能够实现其最终目标的具体行为模式。AI 代理的核心组成部分在代理工作流模式中起着关键作用。代理的推理能力促进了规划和反思模式,而其使用工具与环境互动的能力则是工具使用模式的基础。

规划模式

规划设计模式允许代理自主地将更复杂的任务分解为一系列更小、更简单的任务,这个过程称为任务分解。任务分解能够带来更好的结果,因为它减轻了大语言模型的认知负担,提高了推理能力,并减少了幻觉和其他不准确性的出现。

当实现最终目标的方法不明确且在问题解决过程中需要适应性时,规划特别有效。例如,一个被指示修复软件漏洞的AI 代理可能会使用规划模式将任务分解为子任务,如阅读漏洞报告、识别相关代码部分、列出潜在原因,最后选择特定的调试策略。如果第一次尝试修复漏洞没有成功,代理可以在执行后读取错误消息并调整其策略。

尽管规划可以帮助代理更好地处理更复杂的任务,但它也可能导致比更确定性工作流更不可预测的结果。因此,最好仅在需要强烈解决问题和多跳推理的任务中使用规划模式。

工具使用模式

生成型大语言模型的一个显著限制是它们依赖于预先存在的训练数据,这意味着它们无法检索实时信息或验证超出它们之前所学内容的事实。因此,它们可能会生成不真实的回应或在不知道答案时进行“猜测”。检索增强生成(RAG)有助于缓解这一限制,通过向大语言模型提供相关的实时外部数据,使其能够提供更准确、更具情境基础的回应。

然而,工具的使用超越了简单的 RAG ,它允许大语言模型动态地与现实世界互动,而不仅仅是从现实世界中检索数据。在代理工作流中,工具使用模式通过允许代理与外部资源和应用程序、实时数据或其他计算资源互动,从而扩展了代理的能力。

常见的工具包括API、信息检索(例如向量搜索)、网络浏览器、机器学习模型和代码解释器。这些工具被用来执行特定任务,如在互联网上搜索、从外部数据库检索数据或阅读或发送电子邮件,以帮助代理实现其目标。

反思模式

反思是一种强大的代理设计模式,相对容易实现,并且可以为代理工作流带来显著的改进。反思模式是一种自我反馈机制,代理在最终确定回应或采取进一步行动之前,迭代评估其输出或决策的质量。然后,这些批评被用来完善代理的方法,纠正错误,并改进未来的回应或决策。

当代理不太可能在第一次尝试中成功完成其目标时,反思尤其有用,例如编写代码。在这种情况下,代理可能会生成一个代码片段,在沙箱或执行环境中运行它,并将错误迭代反馈给大语言模型,并指示其完善代码,直到代码成功执行。

反思的力量在于代理能够批评自己的输出,并将这些见解动态地整合到工作流中,从而无需直接的人类反馈即可实现持续改进。这些反思可以被编码在代理的记忆中,允许在当前用户会话中更有效地解决问题,并通过适应用户偏好和改进未来的互动来实现个性化。

代理工作流的用例

原子设计模式,如规划和工具使用,可以以创造性的方式组合,有效地利用代理人工智能来完成各种任务,跨越不同的领域。除了组合设计模式外,AI 代理还可以被提供不同组合的工具,并且甚至被授予根据需要动态选择工具的能力。它们还可以与人类反馈循环集成,并被赋予不同程度的自主性和决策权。

这些多样化的配置使得代理工作流可以针对各行业的广泛任务进行定制。为了证明这一点,我们概述了两个特别强大的用例:RAG 和代理研究助手。

RAG

RAG 是一个框架,通过从外部数据源检索相关数据来增强大语言模型的知识。代理 RAG 将一个或多个代理纳入 RAG 流程中。

在规划阶段,代理可以通过查询分解将复杂查询分解为更小的子查询,或者确定是否需要向用户请求额外信息以完成请求。

AI 代理还可以用来评估检索到的数据和回应的相关性和准确性,然后才将其传递给用户。如果回应不满意,代理可以重新制定查询,重新访问查询分解步骤,甚至为回应查询制定新的计划。

代理研究助手

代理研究助手,也被一些人工智能公司称为“深度研究(deep research)”,通过搜索网络和各种外部数据来生成复杂主题的深入报告和详细见解。这些助手利用代理RAG来检索网络和其他外部来源的信息,以回应用户查询。然而,与传统 RAG 不同的是,这些助手能够综合和分析信息,而不仅仅是从外部来源检索相关数据来增强大语言模型生成的输出。

这种独特的能力归功于几个特点。首先,代理研究助手通常使用针对网络浏览、任务分解和动态规划进行了微调的大语言模型。其次,这些工作流中的代理积极寻求用户指导,请求额外信息或澄清以更好地理解最终目标。第三,这些代理能够根据它们检索到的信息调整计划并改变方向。这意味着它们可以在综合新信息时追求新的、有趣的视角,并连续查询多个数据源,直到获得必要的数据。

因此,代理研究助手能够获得更深入的见解,识别随时间的趋势,并编制完整报告,而不仅仅是检索现有知识。目前,OpenAI、Perplexity 和 Google 都已公开发布了他们自己的深度研究版本。

代理编码助手

代理编码助手可以在最少的人类干预下生成、重构、完善和调试代码。非代理编码助手,如 GitHub Copilot 的第一版,由经过微调以生成代码的生成型大语言模型提供支持,但仅限于生成代码。

使编码助手代理化的是它能够通过执行生成的代码并与环境互动,并根据执行结果、错误或反馈迭代完善代码。这些助手还可以被授予权限,对现有代码库进行更改,通过创建提交和 PR,如 Anthropic 的 Claude Code,这是自动化软件开发过程的重要一步。代理编码助手还可以被用来建议终端命令和其他代码更改和添加,并在执行前等待明确的人类批准,如 Cursor 的 Agent,让人类完全控制代理。此外,至关重要的是,代理编码助手可以从错误中学习,将它们编码在长期记忆中,使它们随着时间的推移变得更聪明。

代理工作流示例

现在我们已经概述了一些代理工作流的用例,我们将更详细地查看两个现实世界代理的工作流步骤:Claygent 和 ServiceNowAI 代理。每个工作流都使用其独特的模式和工具组合,赋予其代理不同程度的自主性和决策能力,并依赖不同程度的人类反馈和参与。

Claygent(Clay)

对于增长和销售团队来说,潜在客户研究和数据丰富可能是一项繁琐的任务。Clay 是一家数据丰富和外展自动化公司,通过 Claygent——一个持续扫描网络和内部数据库以提供实时、可行见解的人工智能驱动研究代理,简化了这一过程。

假设你想使用 Claygent 根据姓名和电子邮件地址列表丰富领英资料,然后发送个性化的介绍信息。首先,你指定你正在寻找的数据字段(例如工作经验、教育背景、技能),这些数据被注入到预配置的提示模板中。代理的大语言模型处理查询,使用网络爬取工具在互联网上搜索领英网址,并从领英资料中提取所需的数据。然后,这些数据可以被发送到另一个大语言模型,你可以指示它以任何你想要的方式总结或分析这些丰富后的数据。同一个大语言模型(或不同的一个)随后可以被用来为每个资料创建个性化的外展信息。

Claygent 是一个相对灵活的代理工作流示例,可以以创造性的方式进行定制,同时仍然通过预配置的提示模板为特定任务的代理提供指导。

ServiceNow AI 代理

ServiceNow 是一个基于云的平台,用于简化和自动化IT、运营、人力资源和客户服务领域的流程。他们的 ServiceNow 平台现在包括对AI 代理的访问,旨在自动化重复性任务和现有的流程,同时仍然让人类完全控制决策。

以下是一个代理工作流如何帮助解决技术支持案例的示例。当客户提交技术支持工单时,触发工作流。然后将工单中的信息传递给一个或多个代理,这些代理在内部IT支持知识库上执行 RAG 。代理总结发现结果,分析类似案例,并为 IT 支持专家生成总结。最后,它生成一个关于如何继续进行的建议,专家可以批准或拒绝。

ServiceNow AI 代理代表了一种创新但更谨慎的方法,将代理部署在生产环境中,为它们分配严格的职责和任务,并限制它们做出影响最终用户或客户的决策的自主性。

代理工作流的利与弊

AI 代理已经迅速从机器学习社区走向主流。鉴于围绕代理人工智能的所有兴奋、期待和期望,很难区分炒作和现实,理解其真正的能力和局限性。在这一部分中,我们为你提供了一个关于代理工作流的利弊、挑战和局限性的平衡观点。

代理工作流的好处

代理工作流超越了传统自动化,使AI 代理能够规划、适应并随着时间的推移而改进。与遵循固定规则的确定性工作流不同,代理工作流可以动态地应对复杂性,通过反馈完善其方法,并扩展以处理更高级的任务。这种适应性使它们在灵活性、学习和决策至关重要的场景中特别有价值。

让我们更仔细地看看代理工作流的好处:

  • 灵活性、适应性和可定制性。静态的、确定性的工作流难以适应不断变化的情况和意外的困难。代理工作流则提供了根据任务难度调整和进化的灵活性,确保它们始终相关并提供最佳解决方案。它们还可以通过组合不同的模式进行定制,实现模块化设计,允许随着需求和复杂性的增长进行迭代升级。

  • 复杂任务性能提升。通过将复杂任务分解为更小、可管理的步骤(通过任务分解和规划),代理工作流显著优于确定性的零样本方法。

  • 自我修正和持续学习。反思模式使代理工作流能够评估自身行为,完善策略,并随着时间的推移改进结果。利用短期和长期记忆,它们从过去的经历中学习,在每次迭代中变得更有效、更个性化。

  • 运营效率和可扩展性。代理工作流可以以高精度自动化重复性任务(如果构建得当),在特定场景中减少人工工作和运营成本。它们还可以轻松扩展,使其成为处理更大工作量或复杂系统的理想选择。

AI 代理仍然是一个新兴技术,随着研究人员和用户发现将代理纳入工作流的新方法,这一好处列表可能会扩大。

代理工作流的挑战和局限性

尽管代理工作流具有好处和创新特性,但 AI 代理也带来了一系列挑战和局限性。由于其概率性质,AI 代理本质上为工作流增加了复杂性。而且,仅仅因为代理可以用来自动化流程,并不意味着它们应该被使用。

以下是代理工作流的一些最显著的挑战和局限性:

  • 简单任务的不必要复杂性。对于像表单输入或基本数据提取这样的简单工作流,AI 代理可能会增加额外的开销。在确定性、基于规则的自动化就足够的情况下,引入代理可能会导致效率低下、额外的费用,甚至可能降低性能。

  • 由于自主性增加而导致的可靠性降低。随着代理在工作流中获得更多的决策权,其概率性质可能会引入不可预测性,使输出变得不那么可靠,更难以控制。为代理实施和积极维护防护栏,并持续审查其授予的权限至关重要。

  • 伦理和实际考虑。并非所有决策都应该委托给人工智能系统。在高风险或敏感领域使用代理需要谨慎监督,以确保负责任的部署并防止意外后果。

鉴于这些局限性,建议花时间反思在给定工作流中使用代理是否真正必要。以下是一些可以帮助你确定这一点的问题:

  • 任务是否足够复杂,需要适应性决策,或者确定性方法就足够了?

  • 一个更简单的AI辅助工具(例如没有代理的RAG)是否能达到相同的结果?

  • 工作流是否涉及不确定性、变化的条件或多步推理,代理可以更有效地处理?

  • 赋予代理自主性的风险是什么,这些风险可以被缓解吗?

AI 代理背后的技术不断发展,理解也在不断演变。本文旨在提供一个关于 AI 代理在工作流中如何运作的基本了解。

最后,PPIO派欧云支持在 20+ 主流平台中调用平台模型,登录PPIO派欧云官网,输入邀请码【JMZ5F8】注册,即可获得15无门槛券。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值