中科院杨万里：大语言模型编辑中的崩溃相关系列研究分享-CSDN博客

主题

大语言模型编辑中的崩溃研究

时间

2024.11.17 10:30-11:30 周日

入群

欢迎加入NICE每周分享交流群，在群内与分享嘉宾和观众进行深入交流讨论，并且可第一时间收到后续NICE分享报告的通知。加群通过小助手认证，群内无广告。

扫码加小助手微信进NICE每周报告分享交流群，备注“【昵称-单位-研究方向-NICE入群】 ”

内容

论文1：The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse
链接：https://aclanthology.org/2024.findings-acl.322.pdf

论文2：The Fall of ROME: Understanding the Collapse of LLMs in Model Editing
链接：https://aclanthology.org/2024.findings-emnlp.236.pdf

代码：https://github.com/WLYangICT/Collapse-in-Model-Editing
项目主页：https://yangwl.site/collapse-in-model-editing

引言

模型编辑（Model Editing）技术在修正大语言模型的知识中展现出极大的潜力。然而，现有工作却忽视了它对语言模型固有能力的影响。我们深入研究了这一问题，并产出了两篇论文。第一篇论文揭示了少量编辑即可能导致语言模型崩溃的现象，并提出采用困惑度（Perplexity）作为诊断工具。该工作已被ACL2024 Findings收录。第二篇论文探讨了由最先进的编辑方法ROME触发的语言模型崩溃的根本原因，并提出了一个简单有效的解决方案。该工作已被EMNLP2024 Findings收录。

分享内容大纲

- 少量编辑即可导致大语言模型崩溃