清华团队领衔打造,首个AI agent系统性基准测试网站问世AgentBench.com.cn

清华大学等机构的研究团队推出了首个系统性AI智能体基准测试平台AgentBench,用于评估LLMs在8种不同环境中的表现。测试显示,顶级商业模型如GPT-4在复杂任务中优于开源模型,强调了开源LLMs性能提升的必要性。
摘要由CSDN通过智能技术生成

AI 智能体,或自主智能代理,不仅是诸如贾维斯等科幻电影中的人类超级助手,也一直是现实世界中 AI 领域的研究热点。尤其是以 GPT-4 为代表的 AI 大模型的出现,将 AI 智能体的概念推向了科技的最前沿。

在此前爆火的斯坦福“虚拟小镇”中,25 个 AI 智能体在虚拟小镇自由生长,举办了情人节派对;英伟达等提出的具身代理模型 Voyager,也在《我的世界》中学会各种生存技能,闯出了自己的一片天;此外,能够自主完成任务的 AutoGPT、BabyAGI 和 AgentGPT 等,也同样引发了公众的广泛兴趣和热烈讨论。

甚至,前特斯拉 AI 总监、回归 OpenAI 的技术大牛 Andrej Karpathy 在一次开发者活动上透露,每当有新的 AI 智能体论文出现时,OpenAI 内部就会非常感兴趣,并认真地进行讨论。

尽管当前 AI 智能体研究异常火热,但目前 AI 行业缺乏一个系统化和标准化的基准来评估 LLMs 作为代理的智能水平。

为此,来自清华大学、俄亥俄州立大学、加州大学伯克利分校的研究团队便提出了首个系统性的基准测试——AgentBench(agentbench.com.cn),用来评估 LLMs 作为智能体在各种真实世界挑战和 8 个不同环境

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大禹智库

大禹智库——河南第一民间智库

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值