摘要:大型语言模型(LLMs)在各种代理规划任务中取得了相当不错的表现。 然而,传统的智能体规划方法采用“漫灌”方法,不加选择地将黄金轨迹、外部反馈和领域知识注入智能体模型。 这种做法忽视了人类在决策过程中的情境自我意识的基本认知原则,即在决策过程中动态评估情境需求和战略性地运用资源的能力。 我们提出了代理知识自我意识来解决这一差距,这是一种新的范式,使基于LLM的代理能够自主地调节知识利用。 具体而言,我们提出了KnowSelf,这是一种以数据为中心的方法,它应用了像人类一样具有知识渊博的自我意识的智能体。 具体而言,我们设计了一种启发式的情况判断标准,在智能体的自我探索轨迹上标记特殊标记,以收集训练数据。 通过两阶段训练过程,代理模型可以通过生成特定的特殊令牌在不同情况之间切换,以最小的成本实现最佳的规划效果。 我们的实验表明,KnowSelf可以在不同的任务和模型上以最少的外部知识使用量胜过各种强大的基线。 代码可以在https://github.com/zjunlp/KnowSelf上找到。Huggingface链接:Paper page,论文链接:2504.03553
研究背景和目的
研究背景
随着大型语言模型(LLMs)的快速发展,它们在各种代理规划任务中取得了显著的性能提升。然而,传统的代理规划方法通常采用一种“漫灌式”的策略,即将黄金轨迹、外部反馈和领域知识不加区分地注入到代理模型中。这种方法忽视了人类在决策过程中一个关键的认知原则,即情境自我意识(Situational Self-awareness)。情境自我意识指的是个体在决策过程中动态评估情境需求,并战略性地运用资源的能力。
传统的代理规划方法往往导致代理模型对未预期信号的脆弱性,容易陷入模式崩溃,即当遇到与训练数据不同的情况时,模型无法做出正确的决策。此外,尽管引入了外部反馈或知识来增强模型性能,但这些方法通常缺乏针对当前情境的实际需求进行精确调节的机制,导致知识利用效率低下。
为了克服这些局限,需要开发一种能够像人类一样具备情境自我意识的代理模型。这种模型能够在不同情境下自主地调节知识利用,从而在复杂和动态的环境中实现更有效的决策。
研究目的
本研究旨在提出一种新颖的代理知识性自我意识(Agentic Knowledgeable Self-awareness)范式,并通过设计KnowSelf方法来实现这一范式。KnowSelf是一个以数据为中心的方法,它使基于LLM的代理能够像人类一样具备知识渊博的自我意识,从而在不同情境下自主地调节知识利用。具体研究目的包括:
- 提出代理知识性自我意识范式:定义代理知识性自我意识的概念,并阐述其在智能体规划中的重要性。
- 设计KnowSelf方法:开发一种启发式的情况判断标准,用于在代理的自我探索轨迹上标记特殊标记,以收集训练数据。通过两阶段训练过程,使代理模型能够生成特定的特殊标记来在不同情况之间切换,实现最优规划效果。
- 验证KnowSelf的有效性:通过实验证明KnowSelf能够在不同任务和模型上以最少的外部知识使用量胜过各种强大的基线方法。
研究方法
数据收集与知识系统构建
- 数据收集:首先,通过自我探索的方式收集代理在不同情境下的行为轨迹。这包括成功轨迹和失败轨迹,以及代理在反思过程中产生的思考。
- 知识系统构建:基于收集到的数据,构建一个轻量级的知识系统。这包括从成功和失败轨迹中提取错误类型和成功过程类型的知识,并通过知识巩固步骤来整合和优化知识。
KnowSelf方法设计
- 情况判断标准:设计一种启发式的情况判断标准,用于在代理的自我探索轨迹上标记特殊标记(如“快速思考”、“慢速思考”和“知识思考”)。这些特殊标记用于区分代理在不同情境下的行为模式。
- 两阶段训练过程:
- 第一阶段:使用监督微调(SFT)来训练代理模型,使其能够初步具备情境自我意识的能力。通过最大化对数似然损失函数来优化模型参数。
- 第二阶段:引入离线DPO(分布偏好优化)损失函数来进一步提升代理模型的情境自我意识能力。通过最大化分布偏好损失函数来优化模型参数,使其能够更好地在不同情境之间切换。
- 推理与知识引入:在推理过程中,代理模型根据当前情境生成特定的特殊标记,从而决定是否引入外部知识或进行反思。如果代理模型判断当前情境需要外部知识,则使用知识选择模块从知识系统中选择最相关的知识来辅助决策。
实验设置与评估
- 数据集与基线方法:在ALFWorld和WebShop两个模拟代理规划数据集上进行实验,评估KnowSelf的性能。选择多种基线方法进行比较,包括基于提示的方法和基于微调的方法。
- 评估指标:使用平均奖励作为评估指标来衡量代理模型在不同任务上的性能。
- 实验细节:详细描述实验设置、超参数选择、模型架构和训练过程。
研究结果
主要实验结果
- 与基线方法的比较:
- 在没有外部知识注入的情况下,KnowSelf在不同模型和任务上均表现出优于基线方法的性能。
- 在引入外部知识的情况下,KnowSelf以最小的知识使用量实现了与基线方法相当或更好的性能。
- 消融研究:
- 通过消融实验证明了情况判断标准和两阶段训练过程对KnowSelf性能提升的重要性。
- 分析了反思和知识引入对KnowSelf性能的影响,发现它们在不同情境下对代理模型的决策过程起到了积极的辅助作用。
- 泛化能力:
- 在未见过的任务上评估了KnowSelf的泛化能力,发现它能够有效地将学到的情境自我意识能力迁移到新的任务中。
- 机制分析:
- 通过分析代理模型在不同层上的特殊标记概率,揭示了代理知识性自我意识能力的内部机制。
- 发现代理模型在最后的几层中才决定是否引入外部知识或进行反思,这表明它们能够在决策过程的最后阶段对情境需求进行精确评估。
研究局限
- 任务与模型限制:由于计算资源的限制,本研究仅在两个模拟数据集上进行了实验,且仅使用了较小规模的模型。未来的研究可以扩展到更多类型的任务和更大规模的模型上。
- 模态限制:本研究仅关注了基于语言的代理模型,而未涉及多模态代理模型。未来的研究可以探索如何将情境自我意识能力引入到多模态代理模型中。
- 方法限制:本研究主要提出了一种数据驱动的方法来赋予代理知识渊博的自我意识能力。未来的研究可以探索其他训练视角(如强化学习)或模型架构(如新型模型架构)来实现这一目标。
未来研究方向
- 扩展实验设置:在未来的研究中,可以扩展到更多类型的任务和更大规模的模型上,以更全面地评估KnowSelf的性能和泛化能力。
- 融合多模态信息:探索如何将情境自我意识能力引入到多模态代理模型中,以实现更复杂和真实的决策过程。
- 优化训练方法:研究其他训练视角和模型架构来优化代理模型的情境自我意识能力,以提高其在实际应用中的性能和效率。
- 提升自我意识水平:进一步研究如何提升代理模型的自我意识水平,使其能够更好地理解和适应复杂和动态的环境。这包括改进情况判断标准、知识选择机制和决策过程等方面。
综上所述,本研究提出了一种新颖的代理知识性自我意识范式,并通过设计KnowSelf方法来实现这一范式。实验结果表明,KnowSelf能够在不同任务和模型上以最少的外部知识使用量胜过各种强大的基线方法。然而,本研究仍存在一些局限,未来的研究可以进一步扩展实验设置、融合多模态信息、优化训练方法和提升自我意识水平等方面来推动该领域的发展。