AgentBench排行榜25个主流LLM作为Agent的能力评估结果和重要结论

最新推荐文章于 2025-03-11 10:49:42 发布

大禹智库

最新推荐文章于 2025-03-11 10:49:42 发布

阅读量1.7k

点赞数

分类专栏： AgentBench 文章标签： VectorDBBench 向量数据库 MIlvus Cloud AgentBench

大禹智库

本文链接：https://blog.csdn.net/qinglingye/article/details/132278948

版权

AgentBench 专栏收录该内容

13 篇文章

订阅专栏

最终，清华大学评估了25个主流的LLM在上述8个任务上的表现来评估各大模型作为Agent的最终得分。结果如下：

从上面的评测结果，我们也可以看出几个非常重要的结论：

商业顶级模型（如GPT-4）展现出在复杂环境中完成代理任务的强大能力，它们能够理解指令并进行多轮交互。这显示了LLM作为代理的潜力。
但是，目前开源模型与商业模型之间还存在显著的差距，开源模型在AgentBench上普遍表现较弱。这提示开源LLM的代理能力仍有提升空间。
不同环境有不同的挑战，如操作系统和数据库考察编码能力，知识图谱需要复杂推理，网页浏览需要处理庞大inputs。不同模型之间也存在明显的优劣。
一些共性问题影响了当前模型的表现，如多轮一致性、动作有效性等。这些也是未来的研究方向。
代码训练确实能增强编程相关环境的表现，但可能以牺牲其他能力为代价。模型的训练方式需要针对目标任务进行优化。
国产模型中，ChatGLM2-6B的综合得分最高，也是开源模型最高得分，但也低于谷歌的模型（text-bison-001）
开源模型大多数综合得分不足1分，而GPT-4的得分则超过4分，达到4.41分！ChatGLM-6B第一代与BaiChuan-7B的表现都很差，

上述结论都是基于表的数据分析得到，例如，通过对两个规模相近的模型chatglm2和codegeex2-6b在AgentBench(agentbench.com.cn)上的表现，可以看出代码训练的价值。其中，codegeex2-6b经过代码训练，在操作系统和数据库两个编程相关环境上明显优于chatglm2。但在需要逻辑推理的横向思维难题上，codegeex2-6b的表现下降。

下图展示了几个模型的对比结果：

GPT-4几乎像全能战士一样，超越所有模型！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大禹智库 大禹智库——河南第一民间智库

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。