ICLR 2025 杰出论文 | 模型编辑：必要性、短板与破局法

AITIME论道

于 2025-04-25 11:59:53 发布

阅读量1k

点赞数

文章标签：人工智能深度学习自然语言处理

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247533577&idx=1&sn=43b06b2b12914eec732effc4f1ad6553&chksm=e85f157c5981b4fadf58520187399e801809c34698fb4d40e51f5d3f43c7b1de80a6086000dc&scene=126&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

第一作者

第一作者：方俊峰，新加坡国立大学博士后

什么是模型编辑？

模型编辑是一个高效更新大模型内部所存储知识（如错误、过时和不安全知识）的技术。与微调相比，它的主要优势有两个：

1.可以定向更新任意数量的知识（可少至几条），而不用担心过拟合、灾难性遗忘等问题。

2.几乎是无需训练（Training Free）的，实时性强。

一个很直观的问题是，在这个微调技术茁壮成长、层出不穷的时代，为什么我们需要模型编辑？上述俩个优势，到底会给它带来怎样的应用空间呢？

《叶问外传》中有一句非常破圈的话，叫：“七步之外，枪快；七步之内，拳快。”

微调就是枪，相较于上一个版本的LLM，经过微调后的新版本LLM可以稳定地存储更准确的知识。

但是，再高效的微调/对齐，也需要消耗大量的时间和算力。因此完全无法保证实时性。

那么在俩个版本间的这“七步之内”，就是模型编辑的舞台了。

毕竟，大模型的版本更迭可能是以周甚至月为单位的。随着“scaling law”的进一步发展，完成版本更新所消耗的时间和算力可能会越来越多，知识高效更新的代价也会随之变得越来越大。

而模型编辑，则能以Training Free的姿态，顶着“scaling law”的高压，赋予大语言模型“实时性”这一优雅而又强大的属性。

也就是说，在LLM时代，模型编辑可以作为一个桥梁，来弥合俩段微调之间的时间鸿沟。它就像大圣画下的伏魔圈一样，负责保护唐僧（大模型），成功撑到悟空的到来（下一次微调）。

上述持续且实时知识注入的方式大体可以分为俩种：

1.以定位-编辑（Locate-and-edit）范式为代表的变参数方法，如ROME、PMET、WISE、AnyEdit和MEND等；

2.以上下文学习（In-context learning）和表征工程（Representation engineering）为代表的不变参数方法，如ICE、IKE、GRACE、SERAC和Mello等。某种意义上来说，由检索生成增强（RAG）来实现的知识更新也属于这一类。

但是，天下没有免费的午餐。在实际应用中，实时性的背后，是俩个重要的内在短板：

第一种方式中，对参数的改变会不可避免地破坏模型在预训练阶段学习到的通用表达能力；

第二种方式中，编辑知识数量的不断增加会不可避免地造成越来越难准确匹配的困境。

有办法彻底解决上述俩个短板吗？目前看来，几乎毫无可能。

但是，这并不代表判“模型编辑”死刑了。相反，只要解决得当，上述俩个短板，是可以忽略不计的。

原因也很简单，如上所述，模型编辑这个伏魔圈，它的使命，就是撑到下一次微调，或者说版本更迭的到来即可。

毕竟，论语中也说，不在其位，不谋其政。七步之内，模型编辑来处理。

七步之外，就交给微调吧！

基于此，目标就清晰了，只需要在这七步之内，保证上述两个短板，不要闹出太大的乱子即可。

文章提出的方法（AlphaEdit）解决的则是第一种方法所面临的短板。即，保证参数更新在有限步内，不影响模型的通用能力。

实现的方法简单而优雅：直接将每次更新的参数投影到原始知识（或者说原始模型表征分布）的零空间内即可。

图：当前模型编辑范式与AlphaEdit的对比

此处的零空间投影（Null Space Projection），是一个数学概念。简单来说，其可以让一个矩阵在满足某种数学特性的同时，与另一个矩阵的乘积为0。（笔者展望，在LLM时代，零空间投影大有可为，例如：在保护LLM某种能力不受影响的同时，增强/削弱LLM在目标任务上的表现。比如在增强LLM的数学、生化、安全等能力时，保护模型的推理能力不受破坏。）

这一步投影，使得编辑对模型通用表达能力的破坏降低了一个数量级，让编辑在高安全性要求的现实场景中的应用成为了可能。

图：随着编辑次数的增加，模型通用能力的变化。

其中，AlphaEdit在3000次编辑时，通用生成能力也平均没有下降。

下图从表征层面来可视化这种破坏，可以看出，AlphaEdit编辑后的模型，表征几乎不会发生偏移，依然可以维持原状。

图：各个传统编辑方法（上一列）与AlphaEdit（下一列）编辑前后模型的表征变化。

解决了这一模型破坏的短板，

AlphaEdit可以让模型编辑这一伏魔圈，完全有能力撑到下一次版本更新的到来。

路漫漫其修远兮，希望模型编辑能够同微调技术一道，不断经历迭代、优化，共同筑起LLM高效知识更新的长城。

近期精彩活动推荐

CVPR 2025一作讲者招募中，欢迎新老朋友来预讲会相聚！

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了2000多位海内外讲者，举办了逾700场活动，超800万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言

点击 阅读原文 观看作者讲解回放！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。