AI Agent Evaluation (1）：智能体评测框架微洞察

最新推荐文章于 2025-04-08 10:14:54 发布

vastgrassland

最新推荐文章于 2025-04-08 10:14:54 发布

阅读量2.7k

点赞数 5

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/vastgrassland/article/details/140746127

版权

最近我们在做一些很有意思的智能体技术研发工作，我们称为“Super Agent”，即超级智能体。使用我们的框架，不但能够构建智能体，还能把它们装配起来形成更加强大的智能体。不过，把成果端得出来还需一些时日。我们希望能赶上在今年十月底在2024 GOSIM China (全球开源创新大会）上发布。‍‍‍‍

Super Agent研发中，我们需要解决的一个问题是：两个Agents完成同一个任务，如何评估哪一个Agent做得更好一些呢？

通过本文，我们梳理智能体评测相关的研究工作，看一看有没有我们可以直接应用或借鉴的。‍‍‍‍‍

AgentBench

简介：

AgentBench主要是清华大学的工作。它评估了8个不同领域中LLM的表现：

基于代码的环境：‍

操作系统（Operating System）：将自然语言命令翻译成操作系统bash命令执行。‍‍
数据库（Database）：Text-2-SQL，在真实的SQL接口、数据库和多个表上完成任务。
知识图谱（Knowledge Graph）：完成基于知识图谱的问答。

基于游戏的环境：

数字卡游戏（Digital Card Game）: 让大语言模型成为策略和规划游戏的玩家。‍‍‍‍‍‍‍‍
横向思维谜题（Lateral Thinking Puzzles）：让大语言模型成为从非传统角度推论事实并探索新想法的游戏的玩家。
日常生活（House Hold）：完成“把锅放在餐桌上”等家务任务。

基于网络的环境：

网上购物（Web Shopping）：在电子商务网站上搜索、查看和选择商品。‍‍‍‍
网页浏览（Web Browsing）：让大模型为完成任务进行网站交互（比如，点击，选择，键入）动作。

图：AgentBench概览

观察与思考：‍‍‍‍

AgentBench的评估重点不是在智能体本身，而是评估驱动智能体背后的大语言模型在几个领域的能力。
AgentBen

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。