Agent-FLAN: 大型语言模型智能体能力的突破性进展
近年来,大型语言模型(LLM)在自然语言处理领域取得了令人瞩目的成就。然而,当作为智能体(Agent)执行复杂任务时,开源LLM的表现仍然远远落后于以GPT-4为代表的闭源API模型。如何有效地将智能体能力整合到通用LLM中,成为了一个亟待解决的关键问题。
为此,来自中国科学技术大学和上海人工智能实验室的研究团队提出了一种名为Agent-FLAN的创新方法,旨在高效地微调语言模型以适应智能体任务。这项研究成果已被ACL 2024会议录用,并在预印本平台arXiv上公开发布。
🔍 关键发现与创新设计
研究团队首先对现有智能体调优方法进行了深入分析,得出了三个重要观察结果:
-
当前的智能体训练语料库同时包含了格式遵循和智能体推理两个方面,这与预训练数据的分布存在显著差异。
-
LLM在学习智能体任务所需的不同能力时,表现出不同的学习速度。
-
现有方法在提升智能体能力的同时,也引入了幻觉问题等负面影响。
基于这些发现,Agent-FLAN方法采用了以下创新设计:
-
能力分解与聚焦训练: 将智能体任务所需的能力细分为"理解"、"规划"和"执行"三个阶段,并针对性地设计训练数据和策略。
-
数据集重构: 精心设计和重构训练语料库,使其更贴近模型的预训练分布,同时聚焦于智能体核心能力的培养。
-
反例学习: 构建全面的负面样本集,有效缓解模型在智能体任务中的幻觉问题。