本文是LLM系列文章,针对《ExpeL: LLM Agents Are Experiential Learners》的翻译。
摘要
最近,通过利用大型语言模型中嵌入的广泛世界知识,将大型语言模型应用于决策任务的研究兴趣激增。虽然为自定义决策任务定制LLM的需求越来越大,但为特定任务微调LLM是资源密集型的,可能会削弱模型的泛化能力。此外,最先进的语言模型,如GPT-4和Claude,主要可以通过API调用访问,其参数权重仍然是专有的,对公众不可用。这种情况强调了对新方法的日益增长的需求,这种方法允许在不需要参数更新的情况下从代理体验中学习。为了解决这些问题,我们引入了体验式学习(ExpeL)代理。我们的代理使用自然语言从一系列训练任务中自主收集经验和提取知识。在推理时,代理人会回忆起自己提取的见解和过去的经历,以做出明智的决定。我们的实证结果突出了ExpeL代理强大的学习效能,表明随着经验的积累,其性能不断增强。我们通过定性观察和额外的实验进一步探索了ExpeL代理的新兴能力和迁移学习潜力。