对话中的迷雾:大语言模型为何在聊天中“迷路”

在如今的数字世界里,像ChatGPT、Gemini和Claude这样的大语言模型(LLMs)已经成了我们的“超级助手”。它们不仅能回答我们的问题,还能像朋友一样,通过聊天帮我们理清思路。无论是写代码、查数据,还是解答数学题,这些模型在面对明确问题时都表现得像个学霸。然而,一项由Microsoft和Salesforce研究团队合作的研究却发现了一个大问题:当对话变成多轮“你一句我一句”的互动时,即使是最聪明的LLMs也会“迷路”,表现得像个迷糊的路人。这就像一个聪明的朋友,一开始能精准答题,但聊着聊着就跑偏了。


🌈 从“一锤定音”到“慢慢聊”:对话的挑战

想象你在跟一个超级聪明的朋友讨论如何准备雪球大战。你直接说:“Jay每小时做20个雪球,每15分钟有2个会化掉,他想攒60个,需要多久?”朋友掐指一算,很快告诉你答案。可如果换个方式,你先问:“Jay要打雪球大战,得准备多久?”然后一点点补充:“他每小时做20个”“目标是60个”“对了,每15分钟还有2个会化掉”,你会发现,朋友可能开始抓瞎,算出来的答案越来越离谱。

研究人员发现,LLMs在这种“慢慢聊”的对话中,表现远不如一次性把问题讲清楚时。他们测试了15个顶尖的LLMs,包括开源的Llama和闭源的GPT-4.1、Gemini 2.5 Pro,涉及写代码、查数据库、做数学题等六种任务。结果让人大跌眼镜:在多轮对话中,模型的平均表现下降了39%,从单轮的90分掉到65分。甚至在只有两轮的对话中,这种“迷路”现象就已经很明显了。


🧩 分片实验:一点点揭开谜底

把问题切成小块

为了模拟现实中人们零散提供信息的情况,研究人员设计了一个叫“分片实验”的方法。简单说,就是把一个完整的问题切成几个小片段,假装用户一点点说出来。比如,一个数学题:

完整问题:Jay每小时做20个雪球,每15分钟有2个会化掉,他想攒60个雪球,需要多久?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

步子哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值