Q: 这篇论文试图解决什么问题?
A: 这篇论文探讨了大型语言模型(LLMs)在人机交互(HRI)中理论心智(Theory of Mind, ToM)能力的问题。具体来说,论文试图回答以下问题:
-
在人机交互场景中,普通用户在理论心智推理任务上的表现如何?
-
LLMs的表现与普通用户以及理想情况下的推理结果(oracle)相比如何?
-
LLMs在理论心智推理能力方面的鲁棒性如何?
论文通过构建一个名为PROBE(Perceived Robot Behavior Recognition)的任务来研究LLMs在HRI中的理论心智能力。在这个任务中,机器人使用LLM来评估其生成的行为,以类似于人类观察者的方式。LLM的目标是成为代理人类,回答关于机器人行为如何被人类观察者感知的问题。论文通过在五个不同领域(Fetch机器人、Passage Gridworld、环境设计、城市搜救和包裹投递)中构建20个不同行为类型(可解释性、可读性、可预测性和混淆性)的情景来测试LLMs。
此外,论文还提出了一系列扰动测试,包括不一致信念、无信息上下文和信念测试,以检验LLMs在面对微小变化