PMET: Precise Model Editing in a Transformer

最新推荐文章于 2024-06-17 23:21:31 发布

UnknownBody

最新推荐文章于 2024-06-17 23:21:31 发布

阅读量231

点赞数

文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/132451687

版权

LLM 日更专栏收录该内容

514 篇文章 3 订阅

已下架不支持订阅

本文是LLM系列的文章，针对《PMET: Precise Model Editing in a Transformer》的翻译。

PMET：Transformer中的精确模型编辑

摘要
1 引言
2 相关工作
3 方法
4 实验
5 结论

摘要

模型编辑技术以相对较低的成本修改了大型语言模型中的一小部分知识，并取得了显著的成功。现有方法假设Transformer层（TL）隐藏状态是前馈网络（FFN）的键值存储器的值。他们通常优化TL隐藏状态来记忆目标知识，并使用它来更新LLM中FFN的权重。然而，TL隐藏状态的信息流来自三个部分：多头自注意（MHSA）、FFN和残差连接。现有的方法忽略了TL隐藏状态包含FFN不特别需要的信息这一事实。因此，模型编辑的性能降低。为了实现更精确的模型编辑，我们分析了MHSA和FFN的隐藏状态，发现MHSA编码某些通用知识提取模式。这意味着当引入新知识时，MHSA权重不需要更新。基于上述发现，我们引入了PMET，它同时优化了Transformer组件（TC，即MHSA和FFN）的隐藏状态，而只使用优化后的FFN的TC隐藏状态来精确更新FFN权重。我们的实验表明，PMET在COUNTERFACT和zsRE数据集上都表现出了最先进的性能。我们的消融实验证实了我们增强的有效性，进一步强化了MHSA编码某些一般知识提取模式的发现，并表明它存储了少量的事实知识。我们的代码可在https://github.com/xpq-tech/PMET.git.

1 引言

2 相关工作

3 方法

4 实验

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
PMET: Precise Model Editing in a Transformer

模型编辑技术以相对较低的成本修改了大型语言模型中的一小部分知识，并取得了显著的成功。现有方法假设Transformer层（TL）隐藏状态是前馈网络（FFN）的键值存储器的值。他们通常优化TL隐藏状态来记忆目标知识，并使用它来更新LLM中FFN的权重。然而，TL隐藏状态的信息流来自三个部分：多头自注意（MHSA）、FFN和残差连接。现有的方法忽略了TL隐藏状态包含FFN不特别需要的信息这一事实。因此，模型编辑的性能降低。
复制链接

扫一扫

专栏目录

已下架不支持订阅

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。