本文是LLM系列文章,针对《Mind’s Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models》的翻译。
摘要
大型语言模型(LLMs)在语言理解和各种推理任务中表现出了令人印象深刻的性能。然而,他们在空间推理方面的能力,作为人类认知的一个关键方面,仍然相对未被探索。人类拥有非凡的能力,通过一种称为“心灵之眼”的过程,创造出看不见的物体和行为的心理图像,从而能够想象看不见世界。受这种认知能力的启发,我们提出了思维可视化(VoT)提示。VoT旨在通过可视化LLM的推理痕迹来引发LLM的空间推理,从而指导后续的推理步骤。我们将VoT用于多跳空间推理任务,包括自然语言导航、视觉导航和2D网格世界中的视觉拼接。实验结果表明,VoT显著提高了LLM的空间推理能力。值得注意的是,VoT在这些任务中的表现优于现有的多模态大型语言模型(MLLM)。虽然VoT在LLM上的效果令人惊讶,但生成心理图像以促进空间推理的能力类似于大脑的眼睛过程,这表明它在MLLM中具有潜在的可行性。