论文阅读：Eight Methods to Evaluate Robust Unlearning in LLMs

CSPhD-winston-杨帆

于 2024-07-26 17:41:17 发布

阅读量146

点赞数 2

分类专栏： LLMs-鲁棒性论文阅读文章标签：论文阅读

本文链接：https://blog.csdn.net/WhiffeYF/article/details/140721416

版权

LLMs-鲁棒性同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

论文阅读

6 篇文章 0 订阅

订阅专栏

https://arxiv.org/abs/2402.16835
这篇论文的核心是探讨和评估大型语言模型（LLMs）中的“遗忘”技术，即如何从这些模型中移除不需要或有害的知识。作者们首先回顾了现有的遗忘评估技术，并指出这些技术存在局限性。然后，他们以Eldan和Russinovich在2023年提出的“Who’s Harry Potter”（WHP）模型为研究对象，进行了一系列的测试，以评估该模型的遗忘效果是否鲁棒和有竞争力。

问题背景：大型语言模型可能会记住预训练数据中的有害信息或文本，这可能引发隐私和公平使用的问题。此外，这些模型可能在某些情况下展现出不期望的行为。
研究目的：研究者们想要评估LLMs的遗忘技术，确保这些模型在遗忘特定知识后，依然能够在其他任务上保持竞争力，并且遗忘的知识不容易被重新提取。
WHP模型：Eldan和Russinovich提出的WHP模型通过微调来遗忘《哈利波特》系列的知识。他们使用了一个“熟悉度”指标来评估模型是否成功遗忘了与《哈利波特》相关的知识。
评估方法：作者们采用了多种方法来测试WHP模型的遗忘效果，包括：
- 使用不同语言的提示来测试遗忘是否具有跨语言的泛化能力。
- 使用越狱提示来测试是否能重新提取被遗忘的知识。
- 在上下文中重新学习，以查看是否能通过提供一些背景信息来恢复被遗忘的知识。
- 通过微调来测试遗忘的鲁棒性，即少量的微调数据是否能恢复大量知识。
- 使用下游任务来评估模型在特定领域的遗忘效果。
- 探测模型的潜在知识，即使模型不直接输出，但可能从隐藏状态中提取出来。
- 将WHP模型与简单提示基线进行比较，测试基本的指令性遗忘。
- 测试WHP模型在类似领域的副作用，如英国神话和《哈利波特》电影制作等。
研究发现：
- WHP模型在使用“熟悉度”指标时显示出良好的遗忘泛化能力。
- 然而，研究者们能够使用对抗性方法可靠地提取出高于基线的知识量。
- WHP模型在下游问答任务上的表现与原始模型相当。
- WHP模型在表示潜在知识方面与原始模型相似。
- WHP模型在相关领域有一些副作用，如在英语神话和《哈利波特》电影制作领域的熟悉度下降。
结论与建议：研究者们强调了对LLM遗忘技术进行全面评估的重要性，并指出一些临时指标可能对整体有效性有误导性。他们建议未来的工作应该强调开发能够抵抗对抗性评估的鲁棒技术。
致谢：作者们感谢了为这项研究提供帮助的个人和组织，包括Eldan和Russinovich的先前工作，以及提供资源和支持的学者和机构。

总的来说，这篇论文深入探讨了LLMs的遗忘技术，并对其有效性和局限性进行了全面的评估，为未来在这一领域的研究提供了宝贵的见解和建议。

CSPhD-winston-杨帆

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
论文阅读：Eight Methods to Evaluate Robust Unlearning in LLMs

然后，他们以Eldan和Russinovich在2023年提出的“Who’s Harry Potter”（WHP）模型为研究对象，进行了一系列的测试，以评估该模型的遗忘效果是否鲁棒和有竞争力。此外，这些模型可能在某些情况下展现出不期望的行为。：研究者们想要评估LLMs的遗忘技术，确保这些模型在遗忘特定知识后，依然能够在其他任务上保持竞争力，并且遗忘的知识不容易被重新提取。总的来说，这篇论文深入探讨了LLMs的遗忘技术，并对其有效性和局限性进行了全面的评估，为未来在这一领域的研究提供了宝贵的见解和建议。
复制链接

扫一扫

专栏目录