ChatGLM3 刷新 SuperCLUE-Agent 基准国内最好成绩

超级人工智能

已于 2023-11-07 19:38:54 修改

阅读量802

点赞数 14

分类专栏： AI大模型文章标签：深度学习人工智能 nlp 机器学习语言模型 AIGC 1024程序员节

于 2023-11-07 19:36:54 首次发布

本文链接：https://blog.csdn.net/cenyk1230/article/details/134274324

版权

AI大模型专栏收录该内容

13 篇文章 5 订阅

订阅专栏

近日，清华&智谱 AI 推出的全自研第三代基座大模型 ChatGLM3 在 SuperCLUE-Agent 基准测评中取得了优异成绩，刷新了国内模型最高分，暂列榜单首位。相较于 ChatGLM 二代模型，ChatGLM3 在各项智能体关键能力上有了显著提升，尤其在任务分解、检索 API、通用工具使用、多文档对话、少样本示例学习等任务上处于国内头部水平。扫码下载智谱清言App，感受和体验大模型最新的能力。

1. 测评背景

SuperCLUE-Agent 是聚焦于 Agent 能力的多维度基准测试，包括 3 大核心能力、10 大基础任务，可以用于评估大语言模型在核心 Agent 能力上的表现，包括工具使用、任务规划和长短期记忆能力。

2. 测评结果

在 SuperCLUE-Agent 测评中，ChatGLM3 的表现十分出色，刷新了国内模型最高分，并超过了 gpt-3.5-turbo 和 Claude2-100K 的分数。在工具使用、任务规划、长短期记忆的三个 Agent 维度上，ChatGLM3 均刷新了国内模型的最好成绩。

3. 定量分析

ChatGLM3 在 SuperCLUE-Agent 测评基准上表现均衡，尤其在任务分解、调用 API、检索 API、规划 API、通用工具使用、多文档问答等多个能力上有较大优势。与二代 GLM 模型相比，ChatGLM3 在所有任务上均有明显提升，其中任务分解、多文档问答的能力提升最大。

4. 定性分析

通过典型示例对比，ChatGLM3 在任务分解、规划 API 等关键基础能力上接近并优于 gpt-3.5-turbo，但在自我反思和思维链的能力上仍有待提升。

总结：

ChatGLM3 在 SuperCLUE-Agent 基准测评中取得了国内大模型第一梯队的成绩，表现优异。在任务分解、检索 API、通用工具使用、多文档对话、少样本示例学习等任务上处于国内头部水平，但在自我反思、思维链任务上有一定的优化空间。这充分展示了 ChatGLM3 在智能体能力上的强大实力，进一步巩固了我国在人工智能领域的领先地位。

超级人工智能

关注

14
点赞
踩
15

收藏

觉得还不错? 一键收藏
10
评论
ChatGLM3 刷新 SuperCLUE-Agent 基准国内最好成绩

ChatGLM3 在 SuperCLUE-Agent 测评基准上表现均衡，尤其在任务分解、调用 API、检索 API、规划 API、通用工具使用、多文档问答等多个能力上有较大优势。在工具使用、任务规划、长短期记忆的三个 Agent 维度上，ChatGLM3 均刷新了国内模型的最好成绩。SuperCLUE-Agent 是聚焦于 Agent 能力的多维度基准测试，包括 3 大核心能力、10 大基础任务，可以用于评估大语言模型在核心 Agent 能力上的表现，包括工具使用、任务规划和长短期记忆能力。
复制链接

扫一扫