本文是LLM系列文章,针对《Large Language Models Need Consultants for Reasoning: Becoming an Expert in a Complex Human System Through Behavior Simulation》的翻译。
摘要
大型语言模型(LLM)与各种推理强化方法相结合,在数学、法律、编码、常识和世界知识等领域表现出了与人类相当的非凡能力。在本文中,我们深入研究了LLM在复杂人类系统中的推理能力。我们利用基于生成代理的仿真技术,提出了一种新的推理框架,称为“马赛克专家观察墙”(MEOW)。在MEOW框架中,模拟数据用于训练专家模型,在每个独立的模拟时间内集中关于特定任务的“经验”。正是通过模拟积累的“经验”使专家能够在复杂的人类系统中完成任务。我们在一个反映真实世界安全场景的通信游戏中进行实验。结果表明,我们提出的方法可以与现有的方法相结合,提高LLM在复杂人类系统中的推理能力。
1 引言
2 相关工作
3 交际游戏中的行为模拟
4 结构和方法
5 实验
6 讨论
7 结论
在本文中,我们提出了一种新的方法,旨在通过模拟提高LLM解决复杂人类系统问题的推理能力。它带来了前所未有的人类行为模拟,并有可能解决特殊场景中出于隐私、安全等原因的数据收集挑战。利用模拟数据,我们提出了MEOW,这是一个使用ML模型从这些数据中学习并生成专家观察结果的框架。通