在如今的数字世界里,像ChatGPT、Gemini和Claude这样的大语言模型(LLMs)已经成了我们的“超级助手”。它们不仅能回答我们的问题,还能像朋友一样,通过聊天帮我们理清思路。无论是写代码、查数据,还是解答数学题,这些模型在面对明确问题时都表现得像个学霸。然而,一项由Microsoft和Salesforce研究团队合作的研究却发现了一个大问题:当对话变成多轮“你一句我一句”的互动时,即使是最聪明的LLMs也会“迷路”,表现得像个迷糊的路人。这就像一个聪明的朋友,一开始能精准答题,但聊着聊着就跑偏了。
🌈 从“一锤定音”到“慢慢聊”:对话的挑战
想象你在跟一个超级聪明的朋友讨论如何准备雪球大战。你直接说:“Jay每小时做20个雪球,每15分钟有2个会化掉,他想攒60个,需要多久?”朋友掐指一算,很快告诉你答案。可如果换个方式,你先问:“Jay要打雪球大战,得准备多久?”然后一点点补充:“他每小时做20个”“目标是60个”“对了,每15分钟还有2个会化掉”,你会发现,朋友可能开始抓瞎,算出来的答案越来越离谱。
研究人员发现,LLMs在这种“慢慢聊”的对话中,表现远不如一次性把问题讲清楚时。他们测试了15个顶尖的LLMs,包括开源的Llama和闭源的GPT-4.1、Gemini 2.5 Pro,涉及写代码、查数据库、做数学题等六种任务。结果让人大跌眼镜:在多轮对话中,模型的平均表现下降了39%,从单轮的90分掉到65分。甚至在只有两轮的对话中,这种“迷路”现象就已经很明显了。
🧩 分片实验:一点点揭开谜底
把问题切成小块
为了模拟现实中人们零散提供信息的情况,研究人员设计了一个叫“分片实验”的方法。简单说,就是把一个完整的问题切成几个小片段,假装用户一点点说出来。比如,一个数学题:
完整问题:Jay每小时做20个雪球,每15分钟有2个会化掉,他想攒60个雪球,需要多久?