AI智能体综合指南【2024】

在过去的几个月里,我们研究了大约 100 个不同用例的AI代理,研究了AI代理开发 SDK 和框架,并与 Cognosys、Aomni、Superagent、Sweep 等公司的创始人讨论了代理面临的挑战。

以下是我们对基于代理构建的产品、它们的挑战、标准化和未来的了解。

NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - Three.js虚拟轴心开发包

1、业界对AI Agent的定义缺乏共识

“代理”、“人工智能代理”、“自主代理”或“LLM代理”等术语仍然存在一些含糊之处。

我们定义一个代理(与其他变体互换使用),类似于 Shawn Wang,又名“Swyx”(smol ai 的创始人)、Matt Schlicht(Octane AI 的首席执行官),以及主要来自 OpenAI 的 Lilian Weng。

人工智能代理(AI Agent)拥有三个主要功能。

  • AI Agent将推理(reasoning)和行动(acting)结合起来,使用 GPT-3.5 和 GPT-4 等 LLM 来理解、执行和反思任务。
  • AI Agent既有短期记忆又有长期记忆。
  • AI Agent可以通过调用外部 API 来使用“工具”—例如,它可以浏览网页、使用应用程序、读写文件、付款,甚至控制用户的笔记本电脑。

这些品质将代理与半自主或非自主 LLM 支持的应用程序区分开来。 与“主流”自动化(根据数据或系统状态设置一系列触发器并配置接下来发生的事情)相比,人工智能代理可以在存在大量新信息的不可预测的环境中工作。

图 1. LLM 支持的自主代理系统概述

2、AI Agent从独立产品转变为“隐形”功能

可能不会很快就需要正确定义代理,因为趋势正在从流行的独立代理(通常试图以牺牲质量为代价解决各种问题)转变为代理只是更大产品中未被提及的一部分。

公司致力于将代理驱动的助手作为现有产品的附加功能。 例如,Hyperwrite AI 的 Otherside(充当日常任务的个人助理)、MultiOn(个人生活助理)以及 Deepnote 的 AI Copilot

我们看到以代理为中心的项目的复杂性有所增加。 例如,Sweep 是一个开源 GitHub 助手,拥有大量围绕 AI 代理构建的代码。 另一个例子是 Grit.io——一个用于自动代码迁移和依赖项升级的工具。

3、AI Agent距离企业级可靠性还有很长的路

企业使用AI Agent的主要动机是节省成本和金钱。 然而,在代理变得更加可靠之前,他们仍然对代理犹豫不决。

“对于企业客户,我们所说的可靠性至少达到 99.9%”,Aomni Agent 的创始人 David Zhang 认为。

最终用户对快速软件有很高的标准,而 LLM 支持的代理有时运行缓慢。 Cognosys 首席执行官 Sully Omar 评论道:“在传统的软件工程中,大约 200 毫秒已经被认为是缓慢的。 对于代理和 LLM 应用程序来说,延迟是一个大问题,LLM 调用需要超过 30 秒的时间。”

一般来说,代理开发人员目前在测试、评估、调试、延迟和监控方面遇到困难。 常见问题的一个特定示例是确定代理在哪一步发生故障以及原因。

贯穿整个人工智能行业的另一个大问题是隐私、安全和数据保留政策。

4、AI Agent需要特定的SDK和框架

AI代理开发人员为解决上述挑战而选择的范式有所不同。

他们要么在现有工具的基础上构建,创建自己的内部解决方案,要么采用一些专门为代理构建的产品,其中许多产品仍处于早期阶段或 alpha/beta 版本。

4.1 现有的“传统软件”解决方案

Aomni 的创始人 David Zhang 指出,许多代理开发人员试图使用新的框架和 SDK 重新发明轮子,而不是在现有技术的基础上进行构建。

开发人员选择了与传统软件中代理问题相当的解决方案,例如

4.2 AI Agent专用解决方案

传统的软件解决方案仍然无法应对LLM的性质所带来的针对特定代理的挑战。 一个例子是调试代理,它本质上是在玩弄提示,并且缺乏相当于实时调试的代理。

我们与 Grit 或 Sweep 等代理的开发人员进行了沟通,他们要么正在构建完全定制的基础设施,要么尝试使用现有技术至少以某种方式适合他们的代理用例。 正如 Swyx 所提到的,多代理系统的基础设施补充是代理云。 E2B 为代理或 AI 应用程序构建了 AI 游乐场、沙盒云环境,这对于代理的编码用例特别有用。

还有更多专为人工智能代理或LLM应用程序量身定制的项目,最常见的是用于构建、监控和分析的框架。

图 2. AI Agent专用 SDK、框架和工具概述

5、社区正在寻找自治代理的标准

随着我们越来越接近更先进的代理,社区正在讨论建立一个通用的“框架”,以帮助代理生态系统更快地发展并简化工作。

具体问题包括如何设计现实的基准以更好地评估代理人的表现,并纳入安全考虑。

5.1 基准测试

AutoGPT 的基准测试工作(Agent Evals 的基准测试工具)源于真正了解代理正在进行的流程并确定对代理所做的修改是否真正提高其性能的需要。

设计代理基准的最大挑战是成本、时间和选择最佳的测试设计。 测试环境的多样性和独特性与真实性和自然性之间存在权衡。

“如果一个代理未能通过简单的测试,它就无法通过更困难的测试。 因此,挑战的一部分是按照正确的顺序构建测试”,AutoGPT 的研发主管 Silen Naihin 在有关代理基准测试的 X 领域说道。

其他基准测试工作:

  • WebArena — 构建代理的真实 Web 环境
  • MACHIAVELLI 基准 — 基于人工编写的、基于文本的“选择你自己的冒险”游戏,包含超过 50 万个场景和数百万个标注。

5.2 代理协议

AutoGPT 基准测试中采用的Agent Protocol是一种与技术堆栈无关的标准化方式,从而对人工智能代理进行基准测试和比较。

它是一个基于 OpenAPI 规范 v3 的协议 — 一个端点列表,代理应使用预定义的响应模型公开这些端点,并定义用于与代理交互的接口。 LLM 应用程序的开发人员(例如 AutoGPTLemonAI 或 BabyAGI)目前正在采用该协议。

该协议充当与代理的单一通信接口,使得开发与代理一起使用的开发工具变得更加容易。

图 3. AI 代理架构中协议的使用

图 4. Imprompt AI 添加代理协议作为“外部插件”

6、AI Agent转向垂直市场

人们尝试 AutoGPT 或 BabyAGI 等第一个开源代理项目的炒作开始逐渐平静下来。 最终用户现在正在寻求解决特定问题。

代理用例正在缩小,以实现某一特定角色的完美。 当今最常见的用例是编码个人日常任务研究

软件的未来可能包括由数十个“小型”人工智能代理提供支持的应用程序,这些代理服务于特定目的并相互交互。 代理将需要自己的安全云空间来无缝通信并自主执行任务。

我们可能期望进一步转向垂直市场,例如,一个应用程序具有不同的底层代理,旨在用于代码编写、代码调试、代码迁移、电子邮件通信、日历计划和任务管理。

为了提高回访用户的比例,开发人员专注于展示真实的有形结果和用例,而不是过度解释代理的工作原理以及人们为什么应该使用它。

Cognosys AI 的创始人 Sully Omar 增强了用户对有形结果而非底层技术的关心。 “例如,如果用户不了解哪种模型最适合他们的需求,那么为用户提供不同的模型就是多余的。”

图 5、6、7。避免提及底层代理技术的公司示例。 资料来源:Saga AI、Heymoon.ai、Lindy.ai

避免描述技术本身的一个著名例子是苹果公司,在一次重要的演讲中根本不提及“人工智能”,或者不提及“元宇宙”,因为“普通人不知道它意味着什么”。

7、结束语

AI代理距离企业级可靠性还有很长的路要走。 特定于代理的 SDK、框架和工具仍然存在需要克服的挑战。 最重要的是代理的调试、监控、部署和基准测试。 代理协议是标准化代理并改进其通信和基准测试的努力之一。

该空间从代理作为独立代码转变为“代理作为功能”,成为更复杂产品的一部分。 代理开发人员正在关注更狭窄的用例,并学习如何与最终用户更好地沟通。

代理技术最常见的用例是编码、日常任务的个人协助和搜索。 我们看到软件的未来包括自主的 LLM 代理。

要尝试自主代理,请查看流行的人工智能代理的概述

图 8. 根据开源/闭源和主要用例分类的代理


原文链接:AI Agent 综合指南 - BimAnt

  • 25
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 云计算综合标准化系建设指南是一份指导云计算标准化工作的文件,它包括了云计算标准化的基本原则、标准化的目标和任务、标准化的组织和管理、标准化的技术和方法等方面的内容。该指南的主要目的是为了推动云计算标准化工作的开展,促进云计算产业的健康发展。 ### 回答2: 云计算综合标准化系建设指南是为了促进云计算产业的健康发展而制定的。该指南旨在为云计算行业制定一套统一的标准系,以便各个企业和机构在云计算领域的运作都能有一个明确的依据和约束。 云计算标准化系的建设包括三个方面的内容:基础标准、应用标准和安全标准。 基础标准是指云计算的基本概念、架构、功能、接口等方面的规范,如云服务模型、云平台架构、云计算资源管理等。这些标准可以为云计算服务提供商提供一套统一的技术规范,使得不同服务提供商的产品能够互通。同时,基础标准还可以帮助用户更加方便地使用云计算服务。 应用标准是指在特定领域内使用云计算技术时需要遵守的规范,如云存储、云数据分析、云人工智能等。这些标准可以帮助企业和机构选择适合自己需求的云计算方案,提高云计算应用的效率和安全性。 安全标准是指云计算环境下保护用户数据安全和隐私的规范。云计算涉及大量用户的数据存储和处理,因此必须制定相应的安全标准,以保护用户的数据不受攻击和泄露。安全标准应包括数据加密、身份认证、访问控制等措施。 云计算综合标准化系的建设指南将有助于推动云计算行业的规范化发展,促进各方共同遵守规范,提高云计算服务的质量和可信度。同时,标准化系也将有助于降低用户的风险和成本,提高云计算技术的应用普及率。 ### 回答3: 云计算综合标准化系建设指南是为了推动云计算产业健康发展而制定的指导性文件。它的主要目标是统一云计算相关领域的标准,促进云计算应用的互操作性和安全性。 首先,云计算综合标准化系建设指南明确了标准的分类和系结构。通过将标准分为基础标准、服务标准和管理标准等不同类别,确保了云计算标准的全面性和系统性。同时,指南还建立了标准组织和标准制定的程序,确保标准制定的科学性、公正性和严谨性。 其次,云计算综合标准化系建设指南提出了一系列的具标准要求。这些标准要求涵盖了云计算的各个方面,包括云基础设施、云服务模型、云安全和隐私保护等。通过制定这些标准,可以确保不同云计算产品和服务之间的互操作性,从而方便用户选择和使用云计算服务。 此外,云计算综合标准化系建设指南还强调了云计算标准的更新和维护。它建立了标准的审查和修订机制,及时跟踪和反映云计算技术的发展和需求变化,保证标准的适应性和持续性。 总之,云计算综合标准化系建设指南是一个重要的指导文件,对于推动云计算产业的发展和规范化起到了积极的作用。它为云计算标准的制定和实施提供了科学的依据和指导,促进了云计算应用的健康发展。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值