本文是LLM系列文章,针对《The Probabilities Also Matter: A More Faithful Metric for Faithfulness of Free-Text Explanations in Large Language Models》的翻译。
摘要
为了监督先进的人工智能系统,了解其潜在的决策过程非常重要。当系统提示时,大型语言模型(LLM)可以提供听起来合理的自然语言解释或推理痕迹,并得到人类注释者的高度评价。然而,目前尚不清楚这些解释在多大程度上是忠实的,即真正捕捉到了导致模型预测的因素。在这项工作中,我们引入了相关解释忠实度(CEF),这是一种可用于基于输入干预的忠实度测试的指标。此类测试中使用的先前指标仅考虑了预测中的二元变化。我们的指标解释了模型预测标签分布的总变化,更准确地反映了解释的可信度。然后,我们通过在Atanasova等人的反事实测试(CT)上实例化CEF来引入相关反事实测试。我们评估了Llama2家族的小样本提示LLM在三个NLP任务中生成的自由文本解释的可信度。我们发现,我们的指标衡量了CT遗漏的忠诚度方面。