GLM-4-9B领先！伯克利函数调用榜单BFCL的Function Calling评测方法解析与梳理

最新推荐文章于 2025-04-25 15:24:01 发布

神州问学

最新推荐文章于 2025-04-25 15:24:01 发布

阅读量2.1k

点赞数 30

文章标签：人工智能

本文链接：https://blog.csdn.net/2401_82452722/article/details/139499053

版权

智谱公布的GLM-4-9B基于BFCL榜单的工具调用能力测试结果

©作者|格林

来源|神州问学

在智谱最新开源的GLM-4-9B-Chat中，其工具调用能力在BFCL（伯克利函数调用排行榜）榜上获得了超高的总BFCL分，和gpt-4-turbo-2024-04-09几乎不相上下。在榜单中，还提到了AST总分以及Exec总分两个得分，那么这两个得分有什么含义，又是如何计算的呢？

引言

智能体应用开发逐渐成为各大AI厂商应用开发平台不可或缺的一部分，不同平台会提供各类型的插件来拓展智能体的能力范围。随着能力的提升，模型能够完成并胜任的任务种类越发丰富，其中就包括了函数调用（Function Calling）的能力。我们可以看到，现在国内外许多模型厂商都在强化自家模型函数调用的能力，包括智谱最新发布的GLM-4-9B-Chat、百川的Baichuan4、阿里的Qwen系列、上海人工智能实验室的InternLM2等等。通过函数调用，模型能够用于作为智能体应用的核心驱动，成为自然语言到结构化工具调用之间的桥梁。然而，如何评价模型函数调用的能力，通过什么样的方法进行评测，目前业界依旧缺少相关的榜单和方法。前段时间，加州伯克利大学的研究团队公布了其评测模型函数调用能力的方法，以及对应的榜单。在这篇文章中，我们将解析这种评测方式，以及对应评测数据集的构建。