【论文精读】Explainability for Large Language Models: A Survey

论文:Explainability for Large Language Models: A Survey

作者:中、美研究者

发表:arxiv

摘要

大型语言模型 (LLM) 在自然语言处理方面表现出了令人印象深刻的能力。然而,它们的内部机制仍不清楚,缺乏透明度给下游应用带来了不必要的风险。因此,理解和解释这些模型对于阐明它们的行为、局限性和社会影响至关重要。在本文中,我们介绍了可解释性技术的分类,并提供了用于解释基于 Transformer 的语言模型的方法的结构化概述。我们根据法学硕士的培训范式对技术进行分类:传统的基于微调的范式和基于提示的范式。对于每个范式,我们总结了生成个体预测的局部解释和整体模型知识的全局解释的目标和主要方法。我们还讨论了评估生成的解释的指标,并讨论了如何利用解释来调试模型和提高性能。最后,我们与传统的深度学习模型相比,研究了法学硕士时代解释技术的主要挑战和新兴机遇。

传统微调的可解释性范式

两个任务:

1) 了解自监督预训练如何使模型获得对语言的基本理解(如语法、语义和上下文关系)

2) 分析微调过程如何使这些预训练模型具备有效解决下游任务的能力

为传统微调提供两种可解释方式:

1)局部解释的目的是让人们了解语言模型是如何对特定输入实例进行预测的

2)全局解释的目的则是让人们广泛了解 LLM 的整体工作原理

局部解释

是对模型生成的预测进行解释,解释的作用是阐明模型产生特定分类或标记预测的过程

有四种解释方法:包括基于特征归因的解释、基于注意力的解释、基于示例的解释和自然语言解释

基于特征归因的解释

特征归因方法旨在衡量特征和预测结果的相关性,算法为特征x分配一个相关性算法G(x),以反映其与预测f(x)的相关。特征归因的解释可以分为四种:基于扰动的方法、基于梯度的方法、代用模型和基于分解的方法。

基于扰动的方法

基于扰动的方法通过扰动输入示例(如删除、屏蔽或改变输入特征)和评估模型输出变化来工作。

最简单的方法就是leave-one-out,如在Embeddings/hidden state/tokens/words进行扰动,这种去除策略假设输入特征是独立的,忽略了它们之间的相关性

基于梯度的方法

通过分析输出相对于每个输入维度的部分导数来确定每个输入特征的重要性,导数的大小反映了输入对输出的重要性。

基于代用模型的方法

代用模型方法使用更简单、更易于人类理解的模型来解释黑盒模型的个别预测,这些代用模型包括决策树、线性模型、决策规则和其他白盒模型,这些模型本质上更容易为人类所理解。解释模型需要满足可加性,即预测的总影响应等于每个解释因素的单独影响之和。

SHAP是一个满足加法归因的框架,它将特征视为合作预测游戏中的参与者,并为每个特征子集分配一个反映其对模型预测贡献的值。

基于分解的方法

分解技术旨在将相关性得分分解为来自输入的线性贡献。有些工作直接将相关性得分从最终输出层分配到输入层,另一种方法则是从最终输出层向输入层逐层分配相关性得分。层相关性传播(LRP)(Montavon 等人,2019 年)和泰勒类型分解方法(DTD)(Montavon 等人,2015 年)是两类常用方法

基于注意力的解释

注意力机制通常被视为关注输入中最相关部分的一种方式。直观地说,注意力可以捕捉输入中间状态之间有意义的相关性,从而解释模型的预测。现有的许多方法都试图仅仅根据注意力权重或通过分析注意力中编码的知识来解释模型。这些解释技术可分为三大类:可视化方法、基于函数的方法和基于探测的方法。由于基于探测的技术通常用于学习全局解释。

基于可视化的方法

这两种方法只是对注意力进行不同的可视化表示,一种是图形,另一种是矩阵。在神经元层面,可以检查单个注意力头以了解模型行为。在模型层面,可视化跨头和跨层的注意力以识别模式。

基于函数的方法

由于原始注意力不足以完全解释模型预测,一些研究开发了增强型变体作为替代,以确定重要的归因解释。梯度是衡量敏感性和显著性的公认指标,因此被广泛纳入自我定义的归因评分中

基于事例的解释

基于实例的解释旨在从单个实例的角度解释模型行为。与基于模型或特征的解释不同,基于实例的解释说明了模型的输出如何随不同的输入而变化。我们重点关注对抗性实例、反事实解释和数据影响

对抗性实例是通过对输入文本进行扰动,观察输出预测的变化

反事实解释:给定观测输入 x 和改变了某些特征的扰动 ˆ x,预测结果 y 将变为 ˆ y。

数据影响:这一系列方法通过测量单个训练样本对测试点损失的影响程度来描述其影响

自然语言解释

指用生成的文本解释模型对输入序列的决策。生成自然语言解释的基本方法包括使用原始文本数据和人类标注的解释来训练语言模型

全局解释

局部解释旨在解释模型的个别预测,而全局解释则不同,它提供了对语言模型内部运作的洞察。全局解释旨在了解单个组件(神经元、隐藏层和更大的模块)编码了什么,并解释单个组件学习到的知识/语言属性。我们研究了三种主要的全局解释方法:分析模型表征和参数的探测方法、确定模型对输入反应的神经元激活分析以及基于概念的方法。

基于探测的解释

基于分类器的探测

基于分类器的探测背后的基本思想是在预训练或微调语言模型之上训练一个浅层分类器。要进行探测,首先要冻结预训练模型的参数,然后模型会生成输入单词、短语或句子的表征,并学习注意力权重等参数。这些表征和模型参数被输入探测分类器,其任务是识别模型获得的某些语言属性或推理能力。探针训练完成后,将在保留数据集上对其进行评估。

研究表明,较低层次更能预测单词层面的语法,而较高层次则更能捕捉句子层面的语法和语义知识。

基于数据的探测

基于数据的探测是通过评估数据集实现的,如通过语义数据集评估生成内容是否符合语法语义

基于神经元的解释

神经元分析不是检查整个向量空间,而是研究个别维度,即表征中对模型性能至关重要或与特定语言属性相关的神经元。一种简单的工作方法有两个主要步骤:首先,以无监督的方式识别重要的神经元。第二,在有监督的任务中学习语言属性与单个神经元之间的关系。

基于主题的解释

基于概念的可解释性算法将输入映射到一组概念,并衡量每个预定义概念对模型预测的重要性得分。通过引入抽象概念,可以用人类可理解的方式而不是低级特征来解释模型。潜空间中的信息也可以转化为可理解的解释。

机制可解释性

机制可解释性通过研究单个神经元,特别是它们与电路的连接来理解语言模型。

提示的可解释性范式

分为基本模型和助手模型,基本模型是预训练后直接可以用于对话的模型,助手模型是在基本模型基础上通过微调和RLHF强化学习后的模型

基座模型解释

随着语言模型规模的扩大,它们会表现出一些新的能力,如 "少量学习"(即从少量实例中学习概念的能力)。它们还展示了思维链(CoT)提示能力,可以向模型输入一连串的提示,引导模型向特定方向生成,并让模型解释其推理。鉴于这些新出现的特性,可解释性研究有三个主要目标:

1)了解这些大型语言模型如何能从有限的示例中迅速掌握新任务,从而帮助最终用户解释模型的推理

2)解释 CoT 提示

3)表征工程。

解释icl

可解释人工智能技术已被用于阐明提示如何在 LLM 中起作用。具体来说,我们讨论的技术可以揭示上下文学习(ICL)是如何影响模型行为的。其中一项研究使用 SST-2 情感分析基准作为基线任务来解释上下文学习范式(Li 等人,2023b)。该研究通过分析对比演示和显著性地图,研究了 ICL 如何在 LLM 中发挥作用。

解释cot

一项研究通过分析输入标记的显著性得分,研究了思维链(CoT)提示如何影响 LLMs 的行为(Wu 等人,2023a)。显著性得分表示每个输入标记对模型输出的影响程度。这些分数是使用基于梯度的特征归因方法计算得出的。我们的目标是了解与标准提示相比,CoT 提示是否会改变显著性得分,从而深入了解 CoT 提高性能的原因。

代表工程

助手模型解释

由于大规模的无监督预训练和有监督的排列微调,属于这一范例的 LLMs 具有很强的推理能力。然而,由于其规模庞大,也容易产生幻觉等问题输出。可解释性研究旨在:

1)阐明排列微调的作用

2)分析幻觉产生的原因

3)不确定性量化

微调作用的解释

对这些模型的可解释性研究主要集中在确定它们的知识是主要来自最初的预训练阶段,即获取一般语言能力的阶段,还是来自随后的对齐微调阶段,即根据具体任务和偏好进行调整的阶段。

幻觉的解释

最近的分析研究表明,幻觉现象源于数据集中的各种问题(Dziri et al:1) 缺乏相关数据,2) 重复数据。例如,训练数据中普遍存在长尾知识,而 LLMs 在学习此类知识时很容易出现不足(Kandpal 等人,2023 年)。另一方面,重复数据的完美处理具有挑战性。训练数据集中的重复数据会明显影响模型的性能。

不确定性量化

当前对不确定性的量化是基于对数的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值