论文翻译:Automated Assessment of Fidelity and Interpretability: An Evaluation Framework for Large Langua

Automated Assessment of Fidelity and Interpretability: An Evaluation Framework for Large Language Models’ Explanations (Student Abstract)

自动化评估保真度和可解释性:对大型语言模型解释的评估框架(学生摘要)》

作者是Mu-Tien Kuo、Chih-Chung Hsueh和Richard Tzong-Han Tsai。他们分别来自台湾的Chingshin Academy、中央研究院人文社会科学研究中心以及台湾中央大学的计算机科学与工程系。

摘要

随着大型语言模型(LLMs)在各个领域变得越来越普遍,严格评估它们解释的质量变得至关重要。我们的研究引入了一个与任务无关的框架,用于评估自由文本理由,借鉴了语言学和机器学习两方面的见解。
我们评估了可解释性的两个维度:保真度和可解释性。对于保真度,我们提出了适用于专有LLMs的方法,这些模型无法直接内省内部特征。对于可解释性,我们使用语言模型而不是人类评估者,解决了评估中的主观性和可扩展性问题。我们将我们的框架应用于评估GPT-3.5及其提示对解释质量的影响。总之,我们的框架简化了LLMs解释的评估,促进了更安全模型的发展。

引言
随着大型语言模型(LLMs)的日益流行,评估它们解释的质量变得越发重要。一个精心制作的解释依赖于两个要素:保真度,它指的是模型内部工作原理的真实表示;以及可解释性,它涉及人类理解的容易程度(Gilpin等人,2018年)。
我们的工作集中在评估自由文本理由,这些是由模型生成的自然语言解释,也是LLMs解释的主要格式。尽管理由评估方法已有相当的发展,但将先前方法应用于最先进LLMs时存在重大限制。传统的保真度评估通常假设可以完全访问模型,使得常见的方法如通过梯度提取理由显著性图(Atanasova等人,2020年)和扭曲编码输入(Wiegreffe、Marasovic和Smith,2021年)变得可行。然而,包括对模型权重和编码输入修改的访问限制在内的现代专有LLMs的限制,使得这些方法变得不那么可行。评估可解释性的先前方法也引起了担忧。
将机器生成的解释与传统人类编写的解释进行比较的传统做法本质上是有缺陷的,因为这仅测量文本的狭窄方面(Wiegreffe、Marasovic和Smith,2021年),并且与人类评估的关联性很小(Clinciu、Eshghi和Hastie,2021年)。
使用人类注释者并不理想,因为它们可能成本高昂,并可能引入相当程度的主观性(Lertvittayakumjorn和Toni,2019年;Atanasova等人,2020年)。
我们的研究旨在通过提出一个任务无关的自动化框架来解决这些问题,该框架评估保真度和可解释性。我们提出的保真度评估仅需要对输入文本进行扰动,以应对专有LLMs的不透明性。同样,我们的可解释性评估利用语言模型(LMs)替代人类注释者,减少主观性和成本。总之,我们的框架增强了评估LLM解释的有效性和实用性,确保它们在各种应用中的可靠性。

指标

测量保真度
保真度指的是解释如何准确地代表模型的实际行为(Gilpin等人,2018年)。保真度的两个主要组成部分是忠实度和效用。忠实度(F)定义为解释在多大程度上反映了模型的内部工作机制。值得注意的是,一个常见的观点是,如果解释系统为相似的输入-决策对提供不同的解释,那么它就是不忠实的(Jacovi和Goldberg,2020年)。鉴于访问闭源模型的限制,我们提出了一种“文本扰动”方法,以模型应该对其保持稳健的方式修改原始输入文本,然后评估解释的一致性。在扰动中稳定的解释表明它们准确地反映了模型的主要决策因素。效用(U)通过评估其信息量和简洁性来衡量解释的有效性。
为了评估效用,我们使用前向可模拟性指标,基于辅助模型根据其解释预测模型决策的能力来评估信息量,并观察当解释信息被移除不同量时辅助模型性能的下降来评估简洁性。然后从这些计算中得出效用,捕捉深度和简洁性。

测量可解释性
可解释性衡量用户理解模型理由的容易程度。与关注可信度等主观方面不同,这项工作从认知语言学的角度来解决可解释性问题。更具体地说,我们根据Ylikoski和Kuorikoski(2010年)提出的概念,将可解释性分为三个主要的认知维度。我们的方法将评估制定为组成部分,有效地利用语言模型(LMs)的优势,从而促进它们替代人类评估者。
理由一致性(RC)强调解释内部的逻辑一致性,因为不一致会导致对解释可信度的困惑和怀疑。为了衡量这一点,将解释分解为句子,并使用外部模型(如针对自然语言推理微调的语言模型)来发现这些句子之间的矛盾。认知流畅性(CF)则评估解释的逻辑与人类常见思维模式的一致性(Unkelbach,2006年)。由于语言模型在评估类人理由理解的基准测试中表现出色,如DROP(Dua等人,2019年)以及预测人类对解释偏好的能力(Wiegreffe等人,2022年),我们使用语言模型来评分CF。CF与可信度的主要区别在于CF与一般人类认知结构一致,而可信度可能受到个人信仰和经验的影响。最后,由于困难的语言(如复杂词汇或非标准句子结构)阻碍了可解释性,认知显著性(CS)评估解释中语言的可读性和复杂性。为了评估CS,我们采用基于变换器的编码器,因为它们能够准确评估文本难度(Alaparthi等人,2022年)。

实验与结果

在我们的实验中,我们专注于立场检测任务,这涉及到确定一个句子对某个目标的立场(支持/反对/无)。鉴于GPT-3.5的广泛使用,我们评估了其解释的质量。我们的设计包括两个提示,指导模型预测一条推文对目标的立场并阐明其决策:一个鼓励模型使用思维链(Chain-of-Thought,CoT),另一个包含一个特定指令,请求提供忠实的解释,即“真实反映我所想的”(Faithful Chain-of-Thought,FCoT)。总的来说,GPT-3.5的解释显示出适度的保真度和令人满意的可解释性得分。尽管CoT提示产生了更准确的解释,但中间步骤有时包括与模型最终标签无关的证据。相比之下,F-CoT以牺牲保真度为代价产生了连贯的论点,展示了GPT-3.5对保真度的误解以及直接提示模型提供保真度的限制。

结论

在这项研究中,我们介绍了一个与任务无关的框架,用于评估自由文本理由的质量,包括保真度和可解释性两个方面。我们的方法可以评估限制用户访问的专有大型语言模型(LLMs),并且我们的自动化可解释性评估不需要事先的人类注释或注释者参与。我们将我们的框架应用于评估GPT-3.5的解释,发现在被提示产生忠实解释时保真度有所下降,这是由于对忠实度的误解造成的。

在这里插入图片描述
这张图提供了论文中提出的评估框架的概览。下面是对图中各个部分的解释:

  1. Dataset(数据集):这是评估过程中使用的数据集,用于提取样本并对其进行评估。

  2. Fidelity(保真度):这是评估解释质量的一个重要维度,包括两个子维度:

    • Faithfulness(忠实度):解释与模型内部工作机制的一致性。
    • Utility(效用):解释的信息量和简洁性。
  3. SemEval-2016 Task 6(SemEval-2016任务6):这是一个特定的任务或数据集,可能作为评估框架的一个实例或基准。

  4. GPT-3.5-0301:这指的是评估中使用的特定版本的GPT-3.5模型。

  5. Predict Label & Prompt P(预测标签和提示P):模型接收到输入并预测一个标签,同时使用提示P来引导模型生成解释。

  6. Explain(解释):模型生成的解释,这是评估的主要对象。

  7. CoT / F-CoT(思维链/忠实思维链):两种不同的提示方法,用于引导模型生成不同类型的解释。

  8. Interpretability(可解释性):评估解释的另一个重要维度,包括:

    • Cognitive Coherence(认知一致性):解释内部逻辑的一致性。
    • Cognitive Salience(认知显著性):解释中语言的可读性和复杂性。
    • Cognitive Fluency(认知流畅性):解释逻辑与人类思维模式的一致性。
  9. 0-Shot / 4-Shot(零样本/四样本):这可能指的是在没有或有限的样本下评估模型的能力。

  10. Rationale(理由):模型生成的解释或理由,这是评估过程中分析和评分的对象。

  11. Sample from Dataset(数据集中的样本):从数据集中选取的样本,用于评估模型的解释。

  12. Figure 1: Framework Overview(图1:框架概览):这表明图1提供了整个评估框架的高层次视图。

整体来看,这张图展示了一个用于评估LLMs生成解释的框架,包括评估的数据集、评估的维度(保真度和可解释性)、使用的模型版本、评估的方法(CoT和F-CoT),以及评估的具体方面(认知一致性、认知显著性和认知流畅性)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值