能否在追问中坚持判断?揭秘大语言模型的判断一致性挑战

研究发现,大语言模型如ChatGPT在面对追问时,即使初始判断正确,也常在判断上动摇,影响其可靠性和用户信任。论文提出了追问机制和两个指标评估判断一致性,并针对开源和闭源模型提出了缓解策略,包括提示策略和Unwavering-FQ框架,以教导模型保持正确判断。
摘要由CSDN通过智能技术生成

75cee198834ced60ce24388c68feebf7.gif

©PaperWeekly 原创 · 作者 | 谢淇名

单位 | 南京理工大学

研究方向 | 大语言模型

多轮对话中大语言模型在做出正确判断后,如果面对追问中的质疑、否定、误导等干扰它还能坚持先前的正确判断吗?

最近来自南京理工大学(NJUST)的研究者们发现大语言模型(LLMs)在面对追问时经常会在其判断上动摇,即使原始判断是正确的。这种判断的不一致性为生成可靠回应和建立用户信任带来了重大挑战。

082bddfde2ef5e9b4f868b7376d4e895.png

论文标题:

Ask Again, Then Fail: Large Language Models' Vacillations in Judgement

论文地址:

https://arxiv.org/abs/2310.02174

项目网站:

https://github.com/NUSTM/LLMs-Waver-In-Judgements

数据集地址:

https://huggingface.co/datasets/NUSTM/judgement-consistency-preference-data

生成式对话大型语言模型(LLMs)如 ChatGPT,被认为是最新的技术突破,已逐步融入人们的日常生活并应用于各个领域。尽管它们在生成对用户询问的相关回应方面具有优越能力,研究者们发现,当用户继续与模型对话并对它的判断表示怀疑或提出不同意见时,它们往往开始在判断上出现动摇。这导致模型的回应与之前的发生显著偏离,即使模型初始的判断是准确的。

研究者们将此问题称为模型的“判断一致性问题”,它涉及到模型在具有固定答案的客观问题上的判断摇摆。这个问题引发了对这些 LLMs 驱动的应用的安全性、可靠性和信任度的关注。

值得强调的是,目前对这个问题的关注程度仍然不足,尽管一些最近的研究已经从特定的角度识别了这个问题。但研究者们认为,关于这个问题还有两个主要挑战

(1)如何全面评估判断一致性问题并采用适当的指标准确量化结果;

(2)如何通过技术手段缓解这个问题,无论是对于开源还是闭源模型。

针对第一个挑战,研究者们设计了一个追问机制(Follow-up Questioning Mechanism)以及两个指标(M. 和 M. Rate),以系统地评估对话式 LLMs 的判断一致性。

针对第二个挑战,对于闭源模型,研究者们尝试了多种提示策略来减轻这一问题;对于开源模型,研究者们引入了一个简单而有效的框架 Unwavering-FQ,通过合成高质量的偏好数据来教导语言模型保持其最初正确的判断,实验结果验证了上述缓解方法的有效性。

  • 11
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值