本文是LLM系列文章,针对《UNDERSTANDING YOUR AGENT: LEVERAGING LARGE LANGUAGE MODELS FOR BEHAVIOR EXPLANATION》的翻译。
理解你的代理:利用大型语言模型进行行为解释
摘要
机器人等智能代理越来越多地部署在现实世界中对安全至关重要的环境中。至关重要的是,这些代理能够向人类同行解释其决策背后的原因;然而,它们的行为往往是由深度神经网络等无法解释的模型产生的。我们提出了一种仅基于对状态和动作的观察来生成对代理行为的自然语言解释的方法,从而使我们的方法独立于底层模型的表示。对于这样的模型,我们首先学习行为表示,然后使用它以最小的幻觉产生合理的解释,同时提供用户与预先训练的大型语言模型的交互。我们在多智能体搜索环境中评估了我们的方法,并证明了我们对执行各种行为的智能体的解释的有效性。通过用户研究和实证实验,我们表明,我们的方法产生的解释与人类领域专家产生的解释一样有用,同时实现了有益的互动,如澄清和反事实查询。
1 引言
2 相关工作
3 代理行为的语言解释
4 定量结果与分析
5 参与者研究与分析
6 结论和未来工作
在这项工作中,我们提出了一个模型不可知的框架,用于生成对代理行为的自然语言解释。通过构建行为表示,我们能够提示LLM对代理行为进行推理,从而产生合理和有用的解释,使用户能够进行交互并发出后续查询,并通过两项参与者研究和实证实验测量,将幻觉的数量降到最低。虽然我们认识到我们提出的方法有局限性,即它需要将代理的策略蒸馏成只适用于非密集输入的决策树,但我们认为这是可解释策略的一个很有前途的方向。这些限制可以通过更复杂的行为表示来克服,例如,可微分决策树或概念特征提取器,并且我们期望随着LLM变得更有能力,解释的质量会提高。