清华团队领衔打造，首个AI agent系统性基准测试网站问世AgentBench.com.cn

大禹智库

于 2023-08-14 11:49:42 发布

阅读量197

点赞数

分类专栏：《实战AI智能体》文章标签：人工智能 AI-native 向量数据库 Milvus Cloud Milvus AgentBench

大禹智库

本文链接：https://blog.csdn.net/qinglingye/article/details/132272949

版权

《实战AI智能体》专栏收录该内容

216 篇文章 11 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

清华大学等机构的研究团队推出了首个系统性AI智能体基准测试平台AgentBench，用于评估LLMs在8种不同环境中的表现。测试显示，顶级商业模型如GPT-4在复杂任务中优于开源模型，强调了开源LLMs性能提升的必要性。

摘要由CSDN通过智能技术生成

AI 智能体，或自主智能代理，不仅是诸如贾维斯等科幻电影中的人类超级助手，也一直是现实世界中 AI 领域的研究热点。尤其是以 GPT-4 为代表的 AI 大模型的出现，将 AI 智能体的概念推向了科技的最前沿。

在此前爆火的斯坦福“虚拟小镇”中，25 个 AI 智能体在虚拟小镇自由生长，举办了情人节派对；英伟达等提出的具身代理模型 Voyager，也在《我的世界》中学会各种生存技能，闯出了自己的一片天；此外，能够自主完成任务的 AutoGPT、BabyAGI 和 AgentGPT 等，也同样引发了公众的广泛兴趣和热烈讨论。

甚至，前特斯拉 AI 总监、回归 OpenAI 的技术大牛 Andrej Karpathy 在一次开发者活动上透露，每当有新的 AI 智能体论文出现时，OpenAI 内部就会非常感兴趣，并认真地进行讨论。

尽管当前 AI 智能体研究异常火热，但目前 AI 行业缺乏一个系统化和标准化的基准来评估 LLMs 作为代理的智能水平。

为此，来自清华大学、俄亥俄州立大学、加州大学伯克利分校的研究团队便提出了首个系统性的基准测试——AgentBench(agentbench.com.cn)，用来评估 LLMs 作为智能体在各种真实世界挑战和 8 个不同环境

了解本专栏

超级会员免费看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大禹智库 大禹智库——河南第一民间智库

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。