在人工智能技术不断攀升的今天,大型语言模型(LLMs)以其生成类人文本、解决复杂问题的能力赢得了广泛关注。然而,就在它们光芒四射的背后,也潜藏着一个不容忽视的问题:当这些模型在回答问题时内心忐忑不安,它们的“不确定性”究竟有多值得信赖?本文将带领读者深入探讨大模型的不确定性估计,寻找科学中的那道曙光。
🌍 引言:模型自信与忐忑之间的对话
在日常生活中,每当我们面对一个看似简单的问题时,总会不自觉地权衡答案的准确性。类似地,大型语言模型在回答问题时也会“权衡”自己的答案,只不过这种权衡往往隐伏在概率的计算中,而非显露在表面。正如文献《When an LLM is apprehensive about its answers – and when its uncertainty is justified》中指出,大模型的自信与实际正确性之间存在明显的“信心差距”,这种差距在高风险领域尤为致命——在医疗、法律、教育、经济等领域,一个错误但自信的答案可能引发不可预测的后果。
为了降低这种风险,研究人员提出了多种不确定性估计的方法,力图揭示模型在什么情境下表现出过高的自信,以及如何合理地预示错误答案的概率。本文将聚焦于两种主要的估计方法:基于熵(entropy)的不确定性估计以及模型评判(