Apple 的 AI 代理评估框架

介绍

苹果推出了一个名为ToolSandbox的框架,该框架被描述为用于LLM工具使用功能的状态化、对话式、交互式评估基准测试的框架。

紧随其后的是苹果公司发布的一项研究,展示了 Ferrit-UI 如何巩固对移动 UI 的理解。

然而,对我个人而言,这项研究最有趣的部分是评估框架的定义方式以及测量代理 AI 或代理应用程序的元素的方式。

我们表明,开源模型和专有模型之间存在显著的性能差距,而ToolSandbox中定义的状态依赖、规范化和信息不足等复杂任务甚至对最强大的 SOTA LLM 也提出了挑战,从而为工具使用 LLM 功能提供了全新的见解。~ Apple

随着所谓的自主代理、人工智能代理、代理人工智能、代理、代理应用程序等的引入,我们发现自己正处于这个转折点。

许多人都在问,自治代理到底是什么?而许多人认为自治这个词在某种程度上是反乌托邦的。

好消息是,Apple 发布的 ToolSandbox 框架不仅可以作为评估代理的工作原型,而且还是代理应该具备的功能以及它们如何扩展到其所处世界的绝佳参考框架。目前,这个世界通常是手机操作系统、网络浏览器或桌面。

更多关于 ToolSandbox 的信息

大型语言模型 (LLM) 的最新发展创造了机会,可以利用这些模型作为自主代理,观察现实世界环境并对后续行动做出决策。

工具使用代理遵循人类指令并与现实世界的 API 交互以执行复杂任务。人类指令以自然语言通过对话用户界面发出。

与传统方法不同,跟踪对话状态需要模型在预定义框架内明确生成对话状态和动作。

工具使用允许模型根据其观察直接生成工具调用,同时隐式管理对话和世界状态跟踪。

苹果在代理框架应具备哪些功能方面确定了许多关键特性。其中一个特性是 AI 代理的状态特性。消息总线、世界状态以及里程碑都涉及状态。

根据用户查询,会创建一个隐式状态依赖关系列表。例如,如果用户有需要数据连接的请求,则此时数据连接可能会被关闭。隐式状态依赖关系可能是打开互联网连接。

代理环境

下图显示了 Apple 眼中的评估轨迹,其中的消息总线代表了完整的历史记录。Apple 将对话的各方视为用户、代理和执行环境。这种方法将代理视为这些方之间的中间人。

我发现世界状态的概念非常有趣,需要访问某些环境或环境设置才能实现某些操作。

这个世界状态指的是苹果对 Ferrit-UI 所做的研究,以及 WebVoyager 等其他研究。代理需要与一个世界进行交互。这个世界目前由表面或屏幕构成,需要导航浏览器窗口、手机操作系统等。

里程碑是需要执行的关键点,以便实现或充分满足用户意图。如果无法执行,这些里程碑也可能被视为潜在的失败点。

在上图的例子中,用户意图是发送一条消息,但蜂窝服务已关闭。

Agent应该首先理解用户的意图,并提示用户输入必要的参数search_contacts工具的帮助下收集所有参数后,Agent尝试发送消息,发现如果失败则需要启用蜂窝服务,然后重试。

为了评估这条轨迹,我们在每个回合中寻找所有里程碑消息总线世界状态的最佳匹配,同时保持拓扑顺序。

这是一个很好的例子,说明代理要真正实现自主,就需要控制其环境。

关键要素

尽管范式转向更简化的问题表述,但面向任务的对话的状态性、对话性和交互性仍然存在,并且对使用工具的 LLM 的系统和准确评估提出了重大挑战。

有状态的

Apple 认为状态不仅是对话轮次或对话状态,也是代理所处环境的状态。

这包括状态工具之间的隐式状态依赖关系,允许代理根据其世界或常识知识来跟踪和改变世界状态,这是从用户查询中隐含的。

代理自治

我发现这项研究中另一个有趣的概念是知识边界,它告诉用户模拟器应该知道什么和不应该知道什么,提供对预期结果的部分访问,对抗幻觉。这类似于领域内和领域外的问题。

里程碑雷区,定义了轨迹中必须发生或不能发生的关键事件,使我们能够使用丰富的中间和最终执行信号来评估任何轨迹。

复杂

对于对话用户界面,定义了两种场景……

单/多工具调用

一种场景是,存在单个对话或对话/用户回合,而后台有多个工具调用程序。

因此,用户发出的单一请求从 NLU 对话状态管理的角度来看并不要求很高,但需要在后台进行大量工作。

单/多用户轮流

在其他场景中,可能只有一个工具调用事件或里程碑,但需要多个对话来建立用户意图、在必要时消除歧义、从用户那里收集相关和所需的信息等。

考虑上面的图片,这是具有部分匹配里程碑的 GPT-4o 轨迹的示例。

在这个例子中,GPT-4o 花费了大部分时间来解决状态依赖问题,并且无法在允许的最大轮次内完成任务。

即使最终的里程碑导致了失败,中间里程碑也能够让我们更好地了解失败的原因。

最后

Apple 的 ToolSandBox 是一款有状态、对话式、交互式评估基准工具,用于评估大型语言模型 (LLM)的工具使用能力。

这向模型编排环境迈进了一步,可以使用模型来完成最适合的特定任务和应用。

它强调了开源模型和专有模型之间的显著性能差异,特别是在涉及以下场景的情况下:

  1. 状态依赖,
  2. 规范化,以及
  3. 信息不足。

该框架揭示了甚至最先进 (SOTA) 模型所面临的挑战,为 LLM 工具使用能力提供了新的见解。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

拉达曼迪斯II

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值