SuperCLUE-Agent
摘要:这是一个聚焦于Agent能力的多维度基准测试,包括3大核心能力、10大基础任务,可以用于评估大语言模型在核心Agent能力上的表现,包括工具使用、任务规划和长短期记忆能力。
问题:AI agent是一个能够自主理解,规划决策和执行复杂任务的智能体。AI agent智能体无疑最大程度释放了LLM潜能,逐渐成为了通向AGI的技术共识。
结论:我们发现:在Agent的核心基础能力中文任务上,GPT4模型大幅领先;同时,代表性国内模型,包括开源和闭源模型,已经较为接近GPT3.5水平。
维度一:工具使用
- 调用API:是否可以根据给定API的描述精确调用API,并正确响应API返回的能力
- 检索API:主要考察AI Agent选择可能解决用户需求的API,并通过阅读文档来学习如何使用它们。
- 规划API:该任务的主要目的是评估AI Agent在检索和调用API之外的规划能力。考虑到不明确的用户请求(例如预订航班/酒店进行旅行)或者更复杂的请求,模型可能需要进行多次API调用来解决问题。
- 通用工具使用:评估大模型使用通用工具的能力。包括但不限于:使用搜索引擎、浏览网页、操作本地文件、搜索本地文件、使用数据库等等。
维度二:任务规划
- 任务分解:该类任务的目的是评估AI Agent对任务规划的能力,总体来说,它评估的是AI Agent将大型任务分解为较小的、可管理的子目标,从而能够高效地处理复杂任务的能力。
- 自我反思:该类任务的目标评估AI Agent 对过去的行为进行自我批评和反思,从错误中吸取教训,并为未来的步骤进行改进,从而提高最终结果的质量的能力。
- 思维链(CoT):该任务主要考察的是AI Agent利用更多的推理时间和过程,将困难的任务分解为更小、更简单的步骤的能力,着重考察AI Agent是如何一步一步通过思考来解决问题的能力。
维度三:长短期记忆
- 多文档问答:主要考察AI Agent在多个文档中提取并组合答案的能力。
- 长程对话:在现实世界中的长对话中,用户通常会使用大模型谈论几个话题并在其中切换。比如主题检索任务,是通过要求大模型检索由多个主题组成的长对话中的开头和中间过程的主题来测试这种场景。
- 少样本示例学习(In-context Learning):也称情境学习,是一种特定的提示工程方法,其中任务的示例作为提示的一部分提供给模型。它是一种高阶的涌现能力,你可以使用现成的大型语言模型(LLM)来解决新任务,而无需进行微调。
值得注意
- 支持上下文的长度。在长程对话任务上,Claude2超过了GPT4,这可能是由于Claude2支持100K上下文远大于GPT4的8K,所以扩展上下文窗口或许是国内模型在Agent能力上突破的方向之一。
- 使用工具的广度和深度。在考验模型对各种开源API的使用时,很多模型并未按要求写出最好的完成方法。例如在执行一些python任务时,调用方法有误或未意识到去调用高效的库和软件包。
- 任务规划的指令理解和拆解能力。我们会考察一些资源规划(时间、花费上的计算分配)的任务,某些模型未遵循指令,或意识到了资源的分配计算,但是在计算时往往出错,同时未能通过【自我反思】进行纠正。