浙江大学发布开源大模型知识编辑工具EasyEdit,效果超越传统微调方法

浙江大学研究人员发布开源工具EasyEdit,用于精准编辑大模型如GPT-J、T5、LlaMA的知识,超越传统微调方法。该工具支持多种编辑方法,允许用户快速注入新知识,同时保持模型原有性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

4e44993d2016a9485e249e5a1b613891.gif

©PaperWeekly 原创 · 作者 | nlper

db01a9d11e9072ef9708761c4646d60d.png

摘要

大模型知识编辑旨在精准并参数高效地改变大模型的行为(例如修正模型内部过时和错误的知识,去除偏见有毒的内容,植入思想钢印等),而不会对不相关的输入产生负面影响。近期,来自浙江大学的研究人员发布了名为 EasyEdit 的开源大模型知识编辑工具,其提供了多种方法并支持编辑多类大模型如 GPT-J、T5、LlaMA(支持从 1B 到 65B 等),使得模型满足不断变化的用户需求和对齐日益变化的真实世界。

aaa5bdd23c74acb02c03cf843510a168.png

项目主页:

https://github.com/zjunlp/EasyEdit

相关论文:

https://arxiv.org/abs/2305.13172

6f14a4f26e4b88665d298fd9e8bafee7.png

动机&背景

大模型从预训练语料中习得了大量语言类和世界知识并存储在参数中。然而由于真实世界的改变,以及下游任务数据分布偏移等问题,模型的输出不总是尽如人意。例如,大模型存在的幻觉(Hallucination)以及偏见有毒输出等安全问题,因此修正大模型并使其输出符合事实且安全可控非常重要。那么,如何修正大模型模型里存储的过时错误或偏见有毒的知识呢?

第一类:再次Fine-tuning:即以梯度下降的方式让模型重新学习正确的或者新的知识。这个方法简单并且直观,但消耗资源较高且会带来灾难遗忘问题,导致模型过度拟合从而无法保证其他下游任务的固有表现。

第二类:检索增强(Retrieval Augmentation):从外部知识库、语料库等检索正确或者新的事实作为额外知识提示(Prompt)输入以指导模型推理。然而其并没有真正修改模型内部的参数知识,当模型下次遇到同样的输入仍会犯错误。除此之外,模型对于 Prompt 的形式、顺序等十分敏感,可能会造成较大的性能浮动。

第三类:模型/知识编辑(Model Editing):定位知识在模型中的存储位置,精确修改模型内部过时或者错误的知识。此技术确保了修正知识的可靠性,小范围内的参数调整也使得模型在其他各类下游任务维持原有的性能。其大致可分类为:

  • 基于额外参数编辑、分类路由等(保持模型参数)

  • 基于 Meta-Learning 生成梯度,定位 MLP 并修改等(修改模型参数)

54e4b7eaa6935d194f0a08100eda3cb2.png

66c976bee080512b09e460795271b02e.png

工具介绍

EasyEdit 基于 Pytorch 和 Huggingface 集成了多种高效的模型编辑方法,能够精确、快速地编辑模型, 有效地将新的和定制的知识注入到大型语言模型中。其以统一的框架接口使得用户可以轻松上手编辑模型,目前支持的编辑方法和大模型如下图所示(仍在持续迭代中):

4132a4db7076457685773efe9007fc94.png

5ce4771454aeea10477befd6c677d761.png

使用方法

Step1:定义需要编辑的模型,例如 GPTJForCausalLM

Step2:选择合适的模型编辑方法,例如 MENDHyperParams, MEMITHyperParams 分别表示选择 MEND,MEMIT

Step3:提供编辑描述符(输入提示符)和编辑目标(输出目标),例如([修改]美国总统的名字是:鲍里斯·约翰逊)

Step4:提供评估数据(可选),用于评测编辑的可靠性、泛化性,其他下游任务保持能力,以及可移植性、效率等。

Step5:进行编辑和评估

a85da1d2e617c078f94b7a96534e7192.png

工具浅尝

在图示例中,用户尝试了使用 ROME 方法修改 LlaMA:美国总统从原始的输出 Donald Trump 变为 Boris Johnson。从编辑时间以及可靠性来看 ROME 有效且快速地将定制化的知识注入到了 LlaMA 中(耗时 5s,准确率 100%)。

5c41115e8136c41cef86165a1dfae826.png

06209b8ff82a9f49f750d052612ac4a5.png

总结

本文介绍了模型编辑的基本概念以及工具 EasyEdit 的基本使用方式,其囊括了多种模型编辑方法,能够对 Seq2Seq, Decoder-Only 等不同架构的模型进行参数修改、知识修正、幻觉缓解等。EasyEdit 还提供了对于模型编辑表现的多个评估指标,覆盖可靠性、泛化性,其他下游任务保持能力,以及可移植性、效率等多个维度。此外,用户可以精准地将新的或定制化的知识注入到大模型中,使得模型满足不断变化的用户需求和对齐日益变化的真实世界。

outside_default.png

参考文献

outside_default.png

[1] Mor Geva, et al. “Transformer Feed-Forward Layers Are Key-Value Memo-ries.”EMNLP 2021.

[2] Yao, Yunzhi, et al. "Editing Large Language Models: Problems, Methods, and Opportunities." arXiv preprint arXiv:2305.13172 (2023).

[3] Dai, Damai, et al. "Knowledge neurons in pretrained transformers." ACL 2022.

[4] Meng, Kevin, et al. “Locating and editing factual associations in GPT.” NeurIPS 2022.

[5] 张俊林, 由ChatGPT反思大语言模型(LLM)的技术精要.https://mp.weixin.qq.com/s/eMrv15yOO0oYQ-o-wiuSyw

更多阅读

a4d97ea52e16581a995a1329aa1c23e8.png

764df8d69e5ab1f2c5f9771771eee011.png

124ee19f77cf2ca0db05b47eff959dd1.png

6e5724f79c736d777bd1bd3bc7af04dc.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

9a246a8d58cb1adabd2fd24e87a55b3e.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

f4cc555ab0688313b6dac78188c474b2.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值