AI Agent的基础设施还不健全

最新推荐文章于 2024-08-08 18:36:45 发布

hhaiming_

最新推荐文章于 2024-08-08 18:36:45 发布

阅读量479

点赞数 7

文章标签：人工智能

本文链接：https://blog.csdn.net/m0_70839135/article/details/140983474

版权

生成式 AI 应用正在爆发式增长，它们被应用于生产力提升、开发、云基础设施管理、媒体消费，甚至医疗收入周期管理等领域。这种爆发式增长得益于过去 2 年里整个行业构建的模型和底层平台基础设施的快速改进，这些改进简化了托管、微调、数据加载和内存 —— 并使构建应用程序变得更加容易。

因此，许多创始人和投资者的目光转向了技术栈的顶层，我们终于可以开始将我们最先进的技术应用于终端用户。

但是，生成式 AI 开发的速度之快意味着很少有假设能够长期保持正确。现在应用程序正以一种新的方式构建，这对基础设施提出了新的要求。开发人员正在飞速穿越一座尚未完工的大桥，如果我们的行业无法在技术栈的底层提供新的 AI Agent 基础设施组件来支持他们，他们的应用程序就无法发挥其全部潜力。

#01

Agent 的崛起

一个关键变化是 AI Agent 的崛起：这是能够规划和执行多步骤任务的自主行为者。现在，AI Agent—— 而不是直接向底层模型发出 Prompt—— 正成为终端用户常见的接口，甚至成为开发者构建的核心抽象。这进一步加快了新应用程序的构建速度，并在平台层创造了新的机会。

从 2022 年的 MRKL 项目及 2023 年的 ReAct、BabyAGI 和 AutoGPT 开始，开发人员发现，提示和响应链可以将大任务分解为较小的任务（规划）并自主执行。LangChain、LlamaIndex、Semantic Kernel、Griptape 等框架表明，Agent 可以通过代码与 API 交互，而 Toolformer 和 Gorilla 等研究论文表明底层模型可以有效地学习使用 API。微软、斯坦福和腾讯的研究表明，AI Agent 协同工作比单独工作效果更好。

现在，Agent 这个词对于不同的人来说有不同的含义。如果你与足够多的从业者交谈过，你就会发现有很多东西都可以称为 Agent。BabyAGI 创始人 Yohei Nakajima 对这个问题有个很好的看法：

手工制作 Agent：由 Prompt 和 API 调用组成的链条，具有一定的自主性，但在狭窄的约束内操作。
专业 Agent：在一组任务类型和工具内动态决定要做什么。比手工制作 Agent 限制少。
通用 Agent：Agent 的通用 AI—— 与现在实际应用相差很远，仍处于萌芽阶段。

我们最先进的前沿模型（如 GPT-4o、Gemini 1.5 Pro、Claude 3 Opus 等）的推理限制是阻碍我们构建、部署和依赖更高级 Agent（专用和通用）的关键约束。Agent 使用前沿模型来规划、优先排序和自我验证 —— 即将大任务分解为较小的任务并确保输出正确。因此，适度的推理水平意味着 Agent 也受到限制。随着时间的推移，具有更高级推理能力的新型前沿模型（如 GPT-5、Gemini 2 等）将使 Agent 更加先进。

#02

应用 Agent

现在，开发人员认为，性能最佳的 Agent 都是精心设计的。开发人员正在努力弄清楚在当前状态下哪些用例在适当的约束下有效，从而将这些技术应用在他们的工作中。尽管 Agent 存在许多限制，但它们仍在不断增加。终端用户有时会意识到它们的存在，比如在 Slack 上响应的编程 Agent。越来越多的 Agent 也被隐藏在搜索框、电子表格或画布等其他 UX 抽象层下。

以 2024 年成立的电子表格应用公司 Matrices 为例。Matrices 开发了一种能够自动完成用户任务的电子表格，例如，通过根据行和列标题推断用户希望在单元格 A1:J100 中获得的信息，然后搜索网络并解析网页以找到每个数据。

Matrices 的核心电子表格 UX 与 1985 年推出的 Excel 甚至 1979 年推出的 Visicalc 相差无几。但 Matrices 的开发人员可以使用 1000 多个 Agent 对每行、每列甚至每个单元格进行独立的多步骤推理。

再以 2023 年成立的营销自动化公司 Gradial 为例。Gradial 通过帮助创建资产变体、执行内容更新以及跨渠道创建/迁移页面，让数字营销团队自动化其内容供应链。

Gradial 提供聊天界面，但也可以通过响应 JIRA 或 Workfront 等跟踪系统中的工单，融入营销人员现有的工作流程。营销人员不需要将高层任务分解为单个操作。相反，Gradial Agent 会完成这一任务，并代表营销人员在后台完成任务。

当然，现在的 Agent 还有很多局限性。它们经常会出错，需要被管理。运行太多 Agent 会影响带宽、成本、延迟和用户体验。开发人员仍在学习如何有效地使用它们。

但读者可能会注意到，这些限制类似于对基础模型本身的抱怨。验证、投票和模型集成等技术对 AI Agent 的作用，正如最近历史显示的对生成式 AI 整体的作用一样：开发人员指望科学和工程的快速进步，并着眼于未来状态进行构建。他们正在我上面提到的那座尚未完工的大桥上飞速前进，假设它将迅速完工。

#03

为 Agent 提供基础设施支持

所有这些意味着我们的行业需要建设支持 AI Agent 及其依赖的应用程序的基础设施。

现在，许多 Agent 几乎完全是垂直集成的，缺乏托管基础设施。这意味着：Agent 的自我管理云主机、用于内存和状态的数据库、从外部来源获取上下文的连接器，以及用于使用外部 API 的功能调用、工具使用或工具调用。

一些开发人员使用如 LangChain（尤其是其评估产品 Langsmith）等框架将这些东西拼接在一起。这种堆栈现在最有效，因为开发人员在快速迭代，并且认为需要端到端地控制自己的产品。

但随着用例的固化和设计模式的改进，未来几个月内情况将发生变化。我们仍处于手工制作和专用 Agent 的时代。因此，近期最有用的基础设施将是那些满足开发人员当前需求，并让他们构建自己能控制的手工制作 Agent 网络的基础设施。这些基础设施也可以具有前瞻性。随着时间的推移，推理能力将逐渐提高，前沿模型将引导更多的工作流，开发人员将希望专注于产品和数据 —— 那些使他们与众不同的东西。他们希望底层平台在规模、性能和可靠性方面 “自动运行”。

的确，以这种方式看，你会发现一个丰富的生态系统已经开始形成，提供 AI Agent 基础设施。以下是一些关键主题：

Agent 专用开发工具

像 Flowplay、Wordware 和 Rift 这样的工具原生支持常见的设计模式（投票、集成、验证、“团队”），这将帮助更多开发人员理解这些模式并将其用于构建 Agent。一个有用且有明确观点的开发工具可能是解锁基于这种强大 Agent 技术的下一波应用程序的最重要基础设施之一。

Agent 即服务

用于特定任务的手工制作 Agent 开始作为基础设施，开发人员可以选择购买而不是构建。这些 Agent 提供有明确功能的服务，如 UI 自动化（Tinyfish、Reworkd、Firecrawl、Superagent、Induced 和 Browse.ai）、工具选择（NPI、Imprompt），以及提示创建和工程。一些终端客户可能会直接应用这些 Agent，但开发人员也会通过 API 访问这些 Agent，并将其集成到更广泛的应用程序中。

浏览器基础设施

阅读网页并对其进行操作是一个关键优先事项。开发人员通过让 Agent 与 API、SaaS 应用程序和网络互动，使其更加丰富。API 接口相对简单，但访问、浏览、解析和抓取网站和 SaaS 应用程序则较为复杂。这样做使得能够像使用 API 一样使用任何网页或 Web 应用程序，以结构化的形式访问其信息和功能。这需要管理连接、Agent 和验证码。Browserbase、Browserless、Apify、Bright Data、Platform.sh 和 Cloudflare Browser Rendering 等公司都在这一领域有产品。

个性化记忆

当 Agent 在多个模型之间分配任务时，提供共享记忆并确保每个模型能够访问相关的历史数据和上下文变得很重要。Pinecone、Weaviate 和 Chroma 等向量存储对此很有用。但还有一类具有互补、有明确观点的功能的新公司，包括 WhyHow、Cognee 和 LangChain 的一个名为 LangMem 的功能，以及一个流行的开源项目 MemGPT。这些公司展示了如何为终端用户及其当前上下文个性化 Agent 记忆。

Agent 授权

这些 Agent 在与外部系统交互时代表终端用户管理身份验证和授权。如今，开发人员使用 OAuth 令牌让 Agent 模拟终端用户（这种做法非常微妙），在某些情况下，甚至要求用户提供 API 密钥。但用户体验和安全影响是严重的，并非所有网站都支持 OAuth（这就是 Plaid 在金融服务中存在的原因）。Anon.com、Mindware 和 Statics.ai 是开发人员大规模需要的三个例子：Agent 自身的托管认证和授权。

“Agent 的 Vercel”

使用分布式系统无缝管理、编排和扩展 Agent 托管。现在，Agent 托管（E2b.dev、Ollama、Langserve）、持久性（Inngest、Hatchet.run、Trigger.dev、Temporal.io）和编排（DSPy、AutoGen、CrewAI、Sema4.ai、LangGraph）的原语集合各不相同。一些平台（LangChain 和 Griptape）为这些不同组合提供托管服务。为应用程序开发人员提供可扩展的托管、持久性和编排服务的综合服务将意味着开发人员不再需要在多个抽象层（应用程序和 Agent）思考，而是可以专注于他们希望解决的问题。

#04

构建 AI Agent 基础设施的未来

AI Agent 基础设施的发展还处于早期阶段，今天我们看到的是一系列运营服务和开源工具，这些工具尚未商业化或整合到更广泛的服务中。谁将成为最后赢家还不清楚 —— 在这个领域，最终的赢家可能现在还很弱小，或者尚未出现。所以，让我们行动起来吧。

hhaiming_

关注

7
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
AI Agent的基础设施还不健全

现在，Agent 托管（E2b.dev、Ollama、Langserve）、持久性（Inngest、Hatchet.run、Trigger.dev、Temporal.io）和编排（DSPy、AutoGen、CrewAI、Sema4.ai、LangGraph）的原语集合各不相同。但还有一类具有互补、有明确观点的功能的新公司，包括 WhyHow、Cognee 和 LangChain 的一个名为 LangMem 的功能，以及一个流行的开源项目 MemGPT。现在，Agent 这个词对于不同的人来说有不同的含义。
复制链接

扫一扫