ICLR 2025 Oral | 从“人工标注“到“自我迭代“：大模型工具学习的动态文档优化新范式

本文链接：https://blog.csdn.net/m0_59164520/article/details/146415066

工具学习将大模型与外部工具相结合，显著增强了大模型解决复杂任务的能力。通过利用外部工具，大模型克服过时的预训练数据的限制，使我们能够访问最新信息，与动态环境交互，并采取超出其能力范围的行动。工具文档作为关键信息，为大模型提供工具功能及其应用的信息，帮助大模型更高效地使用工具，成为连接大模型与外部工具的桥梁。

然而，现有工具主要是人工设计出来为人类服务的，并不是明确针对大模型的使用进行定制，工具文档也并不符合大模型的理解。实际上专门为大模型编写符合其特定要求的工具文档是一项具有挑战性的工作。

首先，原始的人工编写的工具文档通常是根据人类直觉创建的，存在不完整、冗余、不准确等问题，因为它主要为了迎合人类的理解并且通常缺乏语言模型理解所需的精度，阻碍了大模型有效使用工具。

其次，人工修改这些文档，很难完全涵盖工具使用的所有方面，因为辨别工具可以解决的问题和参数范围通常需要大量的实践经验。通过手动完善来解决这些问题既耗时又费力且无法有效地扩展到大量工具。

此外，工具开发的动态特性进一步加剧了这个问题，因为工具的功能经常更新、弃用或扩展。在工具文档中维护此类不断发展的功能的最新且准确的表示成为一项艰巨的任务。

而中国人民大学高瓴人工智能学院研究团队所提出的方法，通过大模型自我驱动的工具交互来完善工具文档，不需要人工参与，因此可以扩展到大规模的工具文档编写更新中，批量构建符合大模型特定要求的工具文档。

相关论文《从探索到掌握：使大模型通过自我驱动的交互掌握工具》（From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions）已经被ICLR 2025接收 [1]。

研究团队表示，人类通过重复的交互和实践经验来熟练地使用工具，尽管这些工具的功能不断发展，但仍能够保持对这些工具的最新理解。借鉴人类掌握工具的方式，他和所在团队在一篇论文中提出了一种新颖的框架DRAFT。其能根据大模型与工具交互的结果和反馈，自动调整和优化工具文档，旨在构建符合大模型理解的工具文档。

更具体地说，DRAFT 实现了一种迭代试错方法逐步改进工具文档。DRAFT 协调了三个动态关联的阶段：经验收集、从经验中学习和工具文档重写，这三个阶段共同促进了工具文档的迭代改进过程。

首先，在经验收集阶段，通过设计的探索器模拟潜在的工具应用场景，创建探索实例并实际使用工具以收集工具使用经验。这种方法类似于人类在无法理解说明书时探索新工具的使用方式。考虑到工具的使用通常涉及复杂的参数范围、组合和潜在的错误类型，确保探索阶段的多样性以涵盖广泛的可能场景至关重要。因此他们设计了一种促进多样性的探索策略：包括相似度约束和自我反思。在探索新实例时如果和已探索过的实例相似度高于阈值，探索器将进行自我反思分析相似度高的原因并探索该工具的不同方面。

接着，分析器将结合探索器的发现和使用反馈，从这些经验中学习，对现有文档进行分析，判断工具文档是否全面、简洁、不包含无关信息以及文档描述是否和工具返回结果相一致，从而为修改器提出文档修改建议。

最后，修改器在汇集前两个阶段的经验和修改建议的基础上，专注于优化工具文档，以提高其清晰度、准确性和可用性，确保其符合大模型的理解能力。同时该阶段还为下一轮的经验收集阶段提供未来探索方向的建议。此外，鉴于不同工具在复杂性和大模型的理解难度上存在差异，他们引入了一种工具自适应终止机制，以自适应地决定何时停止对每个工具的修改。类似于不同的菜谱需要不同的专业水平，有些工具文档优化速度可能会快于其他工具。当连续两版文档之间的改动很小，表明重写器已充分使文档与大模型的理解相符时，他们认为迭代过程已收敛。通过这种自适应停止机制，可以节省计算资源和时间其次可以防止不必要的修改带来的过度拟合，通过同时使用BLEU分数和语义相似度，确保了同时对结构和语义进行评估，最终生成为大模型定制的高质量文档。

研究团队在RestBench和ToolBench这两个广泛使用的工具学习Benchmark上对DRAFT进行了实验。实验结果表明所有大模型在使用DRAFT修改过后的工具文档时均能更好的利用工具，表现出强大的跨模型泛化能力。同时在ToolBench数据集上，使用DRAFT增强的GPT-4o-mini的性能甚至超过了不使用DRAFT的GPT-4o，这些结果都证明了DRAFT的有效性。

同时，由于现实世界中通常包含大量的工具，无法将所有工具都提供给大模型，需要先经过工具检索从大量工具中筛选出有助于解决用户当前问题的工具，该团队此前提出过一种有效的工具检索策略，极大提高了工具检索的有效性[2],该团队还发现了修改过后的工具文档不仅能帮助大模型使用工具，还能提高工具检索的性能。

此外，通过人工评估的方式还验证了修改后的工具文档不仅有利于大模型的理解，也能有助于人类对工具文档的理解。再次验证了方法的有效性。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述