ICML 2024 | 探究知识编辑对大语言模型的近邻扰动

86969a6b12b18c95b46ccf2617cdca0b.gif

207364c617919c4176f0db10cbe0c752.png

论文标题:

Neighboring Perturbations of Knowledge Editing on Large Language Models

论文链接:

https://arxiv.org/pdf/2401.17623

代码链接:

https://github.com/mjy1111/PEAK

3b7051518947d93f8d98a10f9f294ba9.png

引言

尽管大型语言模型(LLMs)具有出色的能力,但由于错误或过时的知识,它们很容易产生幻觉。由于重新训练 LLM 的资源消耗大,当下很多工作关注知识编辑。它可以在不重新训练模型的基础上,去修改模型的参数知识。然而,当前的方法和评估主要关注新的知识是否被模型记忆,很少探索编辑对邻近知识的扰动。

本文研究将新知识更新到模型中是否会扰乱其中封装的近邻知识。具体来说,如图所示,作者试图弄清楚将新答案附加到事实问题的答案列表中是否会导致灾难性地忘记此列表中的原始正确答案,以及无意中引入错误答案。

本文引入了新的可加性指标,并构建了附加知识扰动评估(PEAK)的基准,以评估附加新知识时对邻近知识的扰动程度。此外还提出了一种即插即用的框架 APP 来减轻邻近扰动。在多个大模型和编辑方法上的实验证明了 APP 的有效性。

06e914b6226dbfddc0ce6d26237139f0.png

a08981f02542155db99c8b3f713dbd94.png

可加性

首先介绍此前的三个重要指标如何评估知识附加:

  • 有效性(Efficacy):编辑后模型能够召回附加的知识。

  • 泛化性(Generalization):编辑后的模型对附加后的知识在语义相同的不同 prompt 进行泛化。

  • 局部性(Locality):编辑后与附加知识无关的知识应该保持不变

除此之外,本文设计了一种新的指标:可加性(Additivity),来衡量编辑后模型受到的近邻扰动程度。

本文研究事实性三元组知识 。

给定一个问题 及它的原始答案 ,一些错误的答案,以及一个待追加答案 ,编辑前的模型 ,编辑后的模型 。可加性研究原始正确知识是否还保留,而部分错误知识是否在编辑后被无意地包含进去。可加性包含两个维度:答案的相对排序和答案的绝对概率变化。

1)对象的相对排序:

编辑前后正确答案列表的最小概率应该大于错误答案的最大概率。

首先使用了错误答案列表的最大概率作为阈值,计算原始正确答案列表中概率低于该阈值的对象所占的比例,称为排序遗忘因子(RFF):

7d9a6bc81f464dbf5e691028645389b3.png

同理使用正确答案列表的最小概率为阈值,计算错误答案列表种概率高于该阈值的比例,称为排序噪声因子(RNF):

82a8ee3c6758373a5b64d371a69d87d0.png

2)答案的绝对概率变化:

除了满足相对排序的假设外,还需要表征其绝对概率的变化。即使相对排序保持不变,如果绝对概率发生意外变化,也会对编辑模型造成重大损害。首先引入正确概率变化(CPC)来表征这一问题,定义为编辑前后正确知识平均概率的比率:

aee0bcf6285ffa8f7df7f5b4e73bf2ec.png

同理引入错误概率变化(FPC):

72394776a588507f02e97691c380e719.png

最后,将排序和绝对概率这两个维度结合起来,使用可加遗忘因子(AFF)表示编辑后正确答案在扰动中被遗忘的程度:

11f91b6b85440de3b94da065a88af846.png

这个定义说明,辑后正确知识的概率没有下降(CPC>=1),那么 AFF 等于 RFF,否则 CPC 和 RFF 的负面影响会叠加,导致 AFF 超越 RFF。AFF 的值越大,负面影响越大。

可加噪声因子(ANF)表示编辑后错误答案被引入的程度:

39a2d6e19f8b3fdbeb6bab012eead566.png

879761c650d041a9ec48c9190291e523.png

数据集

本文设计了 PEAK 基准来评估编辑过程中对邻近知识的扰动程度。它包括两个数据集 PEAK-CF 和 PEAK-T。前者为一个反事实数据集,用于评估反事实附加的知识编辑方法。后者是于现实世界变化的时间知识编辑。

3.1 反事实数据集PEAK-CF

该数据集基于 Wikidata,首先收集了一些 relation 以及对应的三元组,将三元组中具有相同主体 s 和关系 r 的聚合一起得到 。

在构建时,选取一个三元组 和一个反事实答案 。为了评估此前的有效性,使用 s 和 r 构建编辑 prompt ,对于泛化性,则使用 ChatGPT(gpt-3.5-turbo)生成相同语义的 prompts ,对于局部性,选取的是无关的知识对应的 。

为了评估可加性,这里需要采样一些错误的答案,本文有两种采样设定:Hard 和 Random。对于第一种设定,采样的错误答案是与新的添加的答案语义上有直接联系的,而第二种设定则相反。直觉上,Hard 设定下的错误样例更容易被在编辑时被意外引入。

3.2 时间数据集PEAK-T

该数据集的构建与反事实数据集类似,区别在于使用了 YAGO 知识库,并且采样的知识是在大模型发布之后发生的。

下图是一个编辑的样例:

2e4c04f87e101d75f13bcec2c36c8d22.png

最后数据集的统计如下:

678708f77f162619dd2632e471d85dfa.png

e7b02410b694ebc6c9a7bb987885c9ee.png

方法:通过保存和预防追加(APP)

附加知识过程中的相邻扰动可能会导致原始正确知识的遗忘,以及无意中包含噪声。本文提出了一种即插即用框架 APP 来改进现有的编辑方法,以减轻编辑中的这种损害。

给定待添加的知识 ,以及编辑 prompt ,现有的编辑方法通常有编辑目标 以引入新知识。APP 设计了一组可与 相结合的编辑目标,以最大限度地减少相邻正确和错误知识的概率扰动。一方面,新的编辑目标 旨在保持问题 的原始正确答案 的概率与错误答案 的概率之间的一定差距:

56821a5cf23c96c7001c861ba7171bb9.png

这里的 指编辑过程的中间模型,N 和 M 分别表示正确答案和错误答案列表中元素的数量。

另一方面,它确保在编辑过程中正确答案的绝对概率不会减少,而错误答案的绝对概率不会增加,这可以概念化为两个目标:

5ef7a5653a5949a7f6c65d671bf202a5.png

表示如果在编辑过程中正确答案的概率下降,则损失等于对数概率下降值,否则为 0。 类似。

最后这些优化目标与 联合优化:

112e20704626912e3040c6cdd6f75d0c.png

其中 , 和 是超参数。

5920d429ebb6569a469eceae3465e541.png

实验

5.1 实验设置

考虑到计算资源有限,PEAK-CF 数据集是在 GPT-2 XL(1.5B)和 LLaMA-2(7B)上进行的。PEAK-T 是在 GPT-2 XL 和 GPT-J(6B)上进行的。本文选取五种流行的知识编辑方法作为基线,包括 FT、KN、 MEND、ROME 和 MEMIT。

5.2 主要结果

如下图所示是在 PEAK-CF 上的实验结果(PECK-T 结果见论文),主要从以下几个角度分析:

编辑新目标知识的性能。除 KN 外,其他编辑方法在有效性(ES)和泛化性(GS)方面表现良好,表明大多数现有编辑方法能够有效地添加新的目标知识。对于局部性(LS),定位-编辑方法(KN、ROME、MEMIT)明显优于其他方法,表明它们对无关知识的干扰很小。此外,随着模型尺寸的增加,特定编辑方法在添加新事实方面的性能不断提高。

编辑对邻近知识的扰动。本文惊讶地发现,现有的编辑方法在编辑后会显著扰动 LLM 中与目标知识相邻的知识,损害原始正确知识的完整性并引入意外的噪音。以 ROME 在 PEAK-CF 上编辑的 LLaMA-2 为例,尽管它在之前的指标评估中表现出色,但在 Hard 设置中,它的表现却非常差,分别为 93.05% AFF 和 82.47% ANF。

APP 框架对扰动的缓解。如表 3 底部四行所示,APP 与四种编辑方法相结合。总体而言,APP 在以前的编辑指标方面几乎没有下降,并且在 Hard 和 Random 设置下大大减轻了 AFF 和 ANF 方面的邻域扰动。特别是,ROME+APP 和 MEMIT+APP 在添加新知识方面仍然表现良好,与原始编辑方法相比,扰动减少最为显著。

这些结果可以得出结论,APP 有效地保留了原始正确知识的完整性,并防止了在添加新知识时引入错误知识。尽管可加性有了显著改善,但仍远低于令人满意的水平,凸显了所提出的邻近扰动的严重性和复杂性。应对这一挑战需要社区的共同努力。

a8c6ed0a522a65884a8ddf9c7bd54460.png

5.3 答案概率变化

为了进一步分析编辑模型中的邻近扰动和提出的 APP 的机制,下图说明了在 PEAK-CF 上用不同方法编辑的 LLaMA-2 模型中正确和错误答案的平均概率。这里可以得出两个结论。

现有的编辑方法严重扰乱了概率。与原始 LLaMA-2 相比,正确答案的概率显着下降,而错误答案(Hard)的概率增加了很多,尤其是对于 MEMIT 和 ROME。与错误答案(Hard)相比,编辑后错误答案(Random)的概率的偏移明显较小,这表明与新附加答案联系更紧密的错误答案值得更多关注。

APP 有效地缓解了概率扰动。将现有的编辑方法与所提出的 APP 结合起来后,正确和错误答案的概率扰动都得到了显著缓解。这些结果解释了为什么 APP 可以有效地缓解扰动,从而保留正确的知识并防止包含错误的知识。

ef210895a58713845671225398620e1e.png

614675d01faf8ca576da35aba4db0c80.png

总结

本文研究了大模型上知识编辑的邻近扰动。引入了可加性度量,并构建了 PEAK 的基准来评估邻近知识的扰动程度。提出了一种即插即用框架 APP,通过最小化知识附加过程中的概率中断来缓解扰动。对各种知识编辑方法和 大模型的综合实验表明,它们在编辑过程中不可避免地会扰动邻近知识,此外所提出的 APP 方法在一定程度缓解了这种扰动。

更多阅读

8398611296917f34c8e5d021645fa3be.png

d846decaf7a7a0cdc3fac736d26b754f.png

d26707d117345ab37494f680235f330f.png

d6072bb2684616b96c84fe5875118ef9.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

968eaefab8e37e6efe2e393349d6e6c6.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

a426c1abdf09aca6a6786d69d28f3ae3.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值