Confidence Estimation for Large Language Models through Reflection on Multiple Answers

本文关注大型语言模型(LLM)的过度自信问题,提出一种新范式,通过评估多个候选答案的可信任性来提高置信度估计的准确性。介绍了一个两步框架(TTA),先让LLM反思并提供每个答案的理由,再进行综合置信度估计。实验证明,该框架能有效提升校准性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Think Twice Before Assure: Confidence Estimation for Large Language Models through Reflection on Multiple Answers》的翻译。

三思而后行:基于多重答案的大型语言模型置信度估计

摘要

旨在评估输出可信度的置信度估计对于大型语言模型(LLM)的应用至关重要,尤其是黑匣子模型。由于LLM对其生成的不正确答案过于自信,LLM的现有置信度估计通常不会被校准。解决过度自信问题的现有方法受到一个重大限制的阻碍,即它们仅考虑LLM生成的一个答案的置信度。为了解决这一限制,我们提出了一种新的范式,该范式全面评估多个候选答案的可信任性,以减轻对错误答案的过度自信。基于这一范式,我们引入了一个两步框架,该框架首先指示LLM反映并提供每个答案的理由,然后聚合综合置信度估计的理由。该框架可以与现有的置信度估计方法集成,以实现卓越的校准。在三个任务的六个数据集上的实验结果证明了所提出的框架的合理性和有效性。

1 引言

2 问题定义

3 在确认之前三思框架

4 相关工作

5 实验

6 结论

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值