最近我们在做一些很有意思的智能体技术研发工作,我们称为“Super Agent”,即超级智能体。使用我们的框架,不但能够构建智能体,还能把它们装配起来形成更加强大的智能体。不过,把成果端得出来还需一些时日。我们希望能赶上在今年十月底在2024 GOSIM China (全球开源创新大会)上发布。
Super Agent研发中,我们需要解决的一个问题是:两个Agents完成同一个任务,如何评估哪一个Agent做得更好一些呢?
通过本文,我们梳理智能体评测相关的研究工作,看一看有没有我们可以直接应用或借鉴的。
AgentBench
简介:
AgentBench主要是清华大学的工作。它评估了8个不同领域中LLM的表现:
基于代码的环境:
操作系统(Operating System):将自然语言命令翻译成操作系统bash命令执行。
数据库(Database):Text-2-SQL,在真实的SQL接口、数据库和多个表上完成任务。
知识图谱(Knowledge Graph):完成基于知识图谱的问答。
基于游戏的环境:
数字卡游戏(Digital Card Game): 让大语言模型成为策略和规划游戏的玩家。
横向思维谜题(Lateral Thinking Puzzles):让大语言模型成为从非传统角度推论事实并探索新想法的游戏的玩家。
日常生活(House Hold):完成“把锅放在餐桌上”等家务任务。
基于网络的环境:
网上购物(Web Shopping):在电子商务网站上搜索、查看和选择商品。
网页浏览(Web Browsing):让大模型为完成任务进行网站交互(比如,点击,选择,键入)动作。
图:AgentBench概览
观察与思考:
AgentBench的评估重点不是在智能体本身,而是评估驱动智能体背后的大语言模型在几个领域的能力。
AgentBen