The Probabilities Also Matter: A More Faithful Metric for Faithfulness of Free-Text Explanations

本文是LLM系列文章,针对《The Probabilities Also Matter: A More Faithful Metric for Faithfulness of Free-Text Explanations in Large Language Models》的翻译。

概率也很重要:大型语言模型中自由文本解释可信度的更可靠度量

摘要

为了监督先进的人工智能系统,了解其潜在的决策过程非常重要。当系统提示时,大型语言模型(LLM)可以提供听起来合理的自然语言解释或推理痕迹,并得到人类注释者的高度评价。然而,目前尚不清楚这些解释在多大程度上是忠实的,即真正捕捉到了导致模型预测的因素。在这项工作中,我们引入了相关解释忠实度(CEF),这是一种可用于基于输入干预的忠实度测试的指标。此类测试中使用的先前指标仅考虑了预测中的二元变化。我们的指标解释了模型预测标签分布的总变化,更准确地反映了解释的可信度。然后,我们通过在Atanasova等人的反事实测试(CT)上实例化CEF来引入相关反事实测试。我们评估了Llama2家族的小样本提示LLM在三个NLP任务中生成的自由文本解释的可信度。我们发现,我们的指标衡量了CT遗漏的忠诚度方面。

1 引言

2 相关工作

3 方法

4 实验

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值