论文笔记：ALPHAEDIT: NULL-SPACE CONSTRAINED KNOWLEDGE EDITING FOR LANGUAGE MODELS（ICLR 2025）

荔枝酱@

于 2025-05-02 16:20:11 发布

阅读量509

点赞数 7

文章标签：论文阅读语言模型人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_79964073/article/details/147669390

版权

概述

问题：locating-then-editing方法中，同时优化更新错误与知识保留错误（e0，e1，努力平衡），但往往带来对更新的过拟合，

导致LLM中隐藏表示的分布偏移（参数修改导致中间结果分布的变化），在多轮顺序编辑后，甚至会带来模型的遗忘与崩溃

方法：将参数扰动投影到保留知识矩阵 K0 的零空间（避免参数扰动带来的干扰，同时可以从原本的优化目标中删去e0）

评价标准：从知识更新与保留、生成能力、隐藏表示分析、多次编辑后的稳定性、通用性（不同模型）等角度设计实现了详细全面的实验，使用了此方法后的效果显著高于基线

零空间投影

修改模型参数 W为 W+Δ，使得：

(W+Δ)K1≈V1（满足知识更新）
(W+Δ)K0=WK0=V0（同时保留旧知识）

K0，K1分别对应保留知识和待更新知识的键矩阵（每列对应一个知识的输入表示）

约束条件：ΔK0=0（确保扰动不会影响保留知识）

实现：将参数扰动投影到K0的（左）零空间

（零空间就是所有使得 Ax=0成立的 x向量的集合）

构造投影矩阵

奇异值分解（SVD）：

奇异值分解（SVD，Singular Value Decomposition）是线性代数里非常重要的一种矩阵分解方法。简单来说，它是把一个任意的矩阵，拆成三个有良好部分的乘积，而且这三个部分有很好的数学性质：

例如：

可以分解为：

这个 A矩阵其实就是：

不需要旋转，
然后分别在第一个方向上拉伸3倍，在第二个方向上拉伸2倍，
就得到了最终的 A

（具体的分解方法对本文不是重点，这里只做简单介绍）

具体计算步骤：

计算 ATA（转置后乘自己）和 AAT。

这两个矩阵都是对称矩阵，所以它们可以被对角化，能找到特征值和特征向量
ATA 的特征值都是非负的，把这些特征值开平方（取正数部分），就得到 Σ矩阵上的奇异值（按大小排序，通常是从大到小）
V 是 ATA的特征向量组成的正交矩阵

也就是说，解 ATAv=λv，得到的单位特征向量 v 就组成了 V矩阵
U 是用公式算的：

也就是：

用 A乘 V 的每一个特征向量 vi，再除以对应的奇异值 σi得到的向量就是 U 的列向量

按此方法对K0进行奇异值分解即可：

分离零空间基构造投影矩阵：

假设 K0 的秩为 r，将 U分为两部分：

P即为K0所需的左零空间投影矩阵

约束优化转化

使用投影矩阵P，改变优化目标：

求解Δ

首先定义：R=V1-WK1并代入，求目标J关于Δ~的偏导，得到式（32）；根据正交投影矩阵P的性质（对称性）可以进一步化简得到（33）；等式两侧同乘矩阵的逆，得到Δ的表达式

应用

在实际使用中，于预处理阶段，根据保留知识矩阵K0计算投影矩阵P，随后将代码中的Δ修改为Δ乘上P即可实现零空间投影；此论文设计了全面详实的实验，从多个角度证明了此方法能显著提升模型的表现，解决参数编辑带来的模型遗忘与崩溃问题。

博客等级

码龄2年

3
原创

34
点赞

26
收藏

15
粉丝

关注

私信

热门文章

最新评论

论文笔记：ALPHAEDIT: NULL-SPACE CONSTRAINED KNOWLEDGE EDITING FOR LANGUAGE MODELS（ICLR 2025）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记：Harmonizing transferability and discriminability for adapting object detectors（CVPR2020）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记：Harmonious Teacher for Cross-domain Object Detection（CVPR2023）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。