对话中的迷雾：大语言模型为何在聊天中“迷路”-CSDN博客

本文链接：https://blog.csdn.net/weixin_36829761/article/details/147906182

在如今的数字世界里，像ChatGPT、Gemini和Claude这样的大语言模型（LLMs）已经成了我们的“超级助手”。它们不仅能回答我们的问题，还能像朋友一样，通过聊天帮我们理清思路。无论是写代码、查数据，还是解答数学题，这些模型在面对明确问题时都表现得像个学霸。然而，一项由Microsoft和Salesforce研究团队合作的研究却发现了一个大问题：当对话变成多轮“你一句我一句”的互动时，即使是最聪明的LLMs也会“迷路”，表现得像个迷糊的路人。这就像一个聪明的朋友，一开始能精准答题，但聊着聊着就跑偏了。

🌈 从“一锤定音”到“慢慢聊”：对话的挑战

想象你在跟一个超级聪明的朋友讨论如何准备雪球大战。你直接说：“Jay每小时做20个雪球，每15分钟有2个会化掉，他想攒60个，需要多久？”朋友掐指一算，很快告诉你答案。可如果换个方式，你先问：“Jay要打雪球大战，得准备多久？”然后一点点补充：“他每小时做20个”“目标是60个”“对了，每15分钟还有2个会化掉”，你会发现，朋友可能开始抓瞎，算出来的答案越来越离谱。

研究人员发现，LLMs在这种“慢慢聊”的对话中，表现远不如一次性把问题讲清楚时。他们测试了15个顶尖的LLMs，包括开源的Llama和闭源的GPT-4.1、Gemini 2.5 Pro，涉及写代码、查数据库、做数学题等六种任务。结果让人大跌眼镜：在多轮对话中，模型的平均表现下降了39%，从单轮的90分掉到65分。甚至在只有两轮的对话中，这种“迷路”现象就已经很明显了。