ChatGLM3 刷新 SuperCLUE-Agent 基准国内最好成绩

近日,清华&智谱 AI 推出的全自研第三代基座大模型 ChatGLM3 在 SuperCLUE-Agent 基准测评中取得了优异成绩,刷新了国内模型最高分,暂列榜单首位。相较于 ChatGLM 二代模型,ChatGLM3 在各项智能体关键能力上有了显著提升,尤其在任务分解、检索 API、通用工具使用、多文档对话、少样本示例学习等任务上处于国内头部水平。扫码下载智谱清言App,感受和体验大模型最新的能力。

1. 测评背景

SuperCLUE-Agent 是聚焦于 Agent 能力的多维度基准测试,包括 3 大核心能力、10 大基础任务,可以用于评估大语言模型在核心 Agent 能力上的表现,包括工具使用、任务规划和长短期记忆能力。

2. 测评结果

在 SuperCLUE-Agent 测评中,ChatGLM3 的表现十分出色,刷新了国内模型最高分,并超过了 gpt-3.5-turbo 和 Claude2-100K 的分数。在工具使用、任务规划、长短期记忆的三个 Agent 维度上,ChatGLM3 均刷新了国内模型的最好成绩。

3. 定量分析

ChatGLM3 在 SuperCLUE-Agent 测评基准上表现均衡,尤其在任务分解、调用 API、检索 API、规划 API、通用工具使用、多文档问答等多个能力上有较大优势。与二代 GLM 模型相比,ChatGLM3 在所有任务上均有明显提升,其中任务分解、多文档问答的能力提升最大。

4. 定性分析

通过典型示例对比,ChatGLM3 在任务分解、规划 API 等关键基础能力上接近并优于 gpt-3.5-turbo,但在自我反思和思维链的能力上仍有待提升。

任务分解

规划API

自我反思

思维链

总结:

ChatGLM3 在 SuperCLUE-Agent 基准测评中取得了国内大模型第一梯队的成绩,表现优异。在任务分解、检索 API、通用工具使用、多文档对话、少样本示例学习等任务上处于国内头部水平,但在自我反思、思维链任务上有一定的优化空间。这充分展示了 ChatGLM3 在智能体能力上的强大实力,进一步巩固了我国在人工智能领域的领先地位。

  • 14
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 10
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值