TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS
本文针对开源大模型工具使用能力不如闭源大模型(GPT系列)这一问题,先前的研究有三个局限性,1.API有限(不涉及现实世界的 API或仅考虑一小部分多样性较差的 API)2. 情景受限(只考虑单一工具的使用而不考虑串行使用)3. 推理质量低:现有工作采用 CoT 或 ReACT 【ICLR 2023 | ReAct:首次结合Thought和Action提升大模型解决问题的能力-AI.x-AIGC专属社区-51CTO.COM】进行模型推理,无法完全发挥出LLM 的能力,因此无法处理复杂的指令。)对此,引入 ToolLLM。
ToolLLM的贡献主要分两个部分:ToolBench数据集、自动评估器ToolEval。
ToolBench数据集
下图是构建数据集的流程,主要分成三个阶段:收集API、生成指令、路径探索(提出了新算法DFSDT)。
- API收集
RapidAPI 是 API 市场,开发人员只需注册一个 RapidAPI 密钥,就可以测试和连接各种 API。RapidAPI 中的所有 API 都可以分为 49 个粗粒度的类别(category),例如体育、金融和天气。这些类别将 API 与最相关的主题相关联。此外,该中心还提供 500+ 称为集合(collection)的细粒度分类,例如中文 API 和数据库 API。同一集合中的 API 具有共同的特征,并且通常具有相似的功能或目标。
如图,每个工具可能由多个 A