在过去的几个月里,我们研究了大约 100 个不同用例的AI代理,研究了AI代理开发 SDK 和框架,并与 Cognosys、Aomni、Superagent、Sweep 等公司的创始人讨论了代理面临的挑战。
以下是我们对基于代理构建的产品、它们的挑战、标准化和未来的了解。
NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - Three.js虚拟轴心开发包
1、业界对AI Agent的定义缺乏共识
“代理”、“人工智能代理”、“自主代理”或“LLM代理”等术语仍然存在一些含糊之处。
我们定义一个代理(与其他变体互换使用),类似于 Shawn Wang,又名“Swyx”(smol ai 的创始人)、Matt Schlicht(Octane AI 的首席执行官),以及主要来自 OpenAI 的 Lilian Weng。
人工智能代理(AI Agent)拥有三个主要功能。
- AI Agent将推理(reasoning)和行动(acting)结合起来,使用 GPT-3.5 和 GPT-4 等 LLM 来理解、执行和反思任务。
- AI Agent既有短期记忆又有长期记忆。
- AI Agent可以通过调用外部 API 来使用“工具”—例如,它可以浏览网页、使用应用程序、读写文件、付款,甚至控制用户的笔记本电脑。
这些品质将代理与半自主或非自主 LLM 支持的应用程序区分开来。 与“主流”自动化(根据数据或系统状态设置一系列触发器并配置接下来发生的事情)相比,人工智能代理可以在存在大量新信息的不可预测的环境中工作。
图 1. LLM 支持的自主代理系统概述
2、AI Agent从独立产品转变为“隐形”功能
可能不会很快就需要正确定义代理,因为趋势正在从流行的独立代理(通常试图以牺牲质量为代价解决各种问题)转变为代理只是更大产品中未被提及的一部分。
公司致力于将代理驱动的助手作为现有产品的附加功能。 例如,Hyperwrite AI 的 Otherside(充当日常任务的个人助理)、MultiOn&#x