AI Agent Evaluation (1):智能体评测框架微洞察

最近我们在做一些很有意思的智能体技术研发工作,我们称为“Super Agent”,即超级智能体。使用我们的框架,不但能够构建智能体,还能把它们装配起来形成更加强大的智能体。不过,把成果端得出来还需一些时日。我们希望能赶上在今年十月底在2024 GOSIM China (全球开源创新大会)上发布。‍‍‍‍

Super Agent研发中,我们需要解决的一个问题是:两个Agents完成同一个任务,如何评估哪一个Agent做得更好一些呢?

通过本文,我们梳理智能体评测相关的研究工作,看一看有没有我们可以直接应用或借鉴的。‍‍‍‍‍

AgentBench

f0252b446c592c7f2e9e372ba01fe839.jpeg

简介:

AgentBench主要是清华大学的工作。它评估了8个不同领域中LLM的表现:

  • 基于代码的环境:‍

  • 操作系统(Operating System):将自然语言命令翻译成操作系统bash命令执行。‍‍

  • 数据库(Database):Text-2-SQL,在真实的SQL接口、数据库和多个表上完成任务。

  • 知识图谱(Knowledge Graph):完成基于知识图谱的问答。

  • 基于游戏的环境:

  • 数字卡游戏(Digital Card Game): 让大语言模型成为策略和规划游戏的玩家。‍‍‍‍‍‍‍‍

  • 横向思维谜题(Lateral Thinking Puzzles):让大语言模型成为从非传统角度推论事实并探索新想法的游戏的玩家。

  • 日常生活(House Hold):完成“把锅放在餐桌上”等家务任务。

  • 基于网络的环境:

  • 网上购物(Web Shopping):在电子商务网站上搜索、查看和选择商品。‍‍‍‍

  • 网页浏览(Web Browsing):让大模型为完成任务进行网站交互(比如,点击,选择,键入)动作。

22302e056e4555e68bd8951e37175ec1.png

图:AgentBench概览

观察与思考:‍‍‍‍

  • AgentBench的评估重点不是在智能体本身,而是评估驱动智能体背后的大语言模型在几个领域的能力。

  • AgentBen

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值