Offset Unlearning for Large Language Models

最新推荐文章于 2025-12-15 14:50:45 发布

UnknownBody

最新推荐文章于 2025-12-15 14:50:45 发布

阅读量289

点赞数 4

CC 4.0 BY-SA版权

分类专栏： LLM Daily Unlearning 文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/142214211

LLM Daily 同时被 2 个专栏收录

1743 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

14 篇文章

订阅专栏

本文是LLM系列文章，针对《Offset Unlearning for Large Language Models》的翻译。

大型语言模型的偏移遗忘学习

摘要
1 引言
2 相关工作
3 方法
4 实验
5 分析
6 结论
局限性

摘要

尽管大型语言模型（LLM）具有从其训练语料库中获取知识的强大能力，但对语料库中敏感信息的记忆（例如受版权保护、有害和私人内容）导致了道德和法律问题。为了应对这些挑战，遗忘已成为受有问题训练数据影响的 LLM 的潜在补救措施。但是，由于需要访问模型内部权重，以前的遗忘技术要么不适用于黑盒 LLM，要么通过保留敏感数据进行推理时间校正而违反了数据保护原则。我们提出了 δ-UNLEARNING，一个用于黑盒 LLM 的偏移遗忘学习框架。δUNLEARNING 不是调整黑盒 LLM 本身，而是通过对比一对较小模型的 logit 来学习遗忘所需的 logit 偏移量。实验表明，δ-UNLEARNING 可以有效地遗忘学习目标数据，同时在一般的遗忘范围任务上保持相似甚至更强的性能。δ-UNLEARNING 还有效地整合了不同的遗忘算法，使我们的方法成为一种通用的解决方案，可以将各种现有的遗忘算法适应黑盒 LLM。

1 引言

2 相关工作

3 方法

4 实验

5 分析

6 结论

在这项工作中，我们提出了 δ-UNLEARNING，这是一个适用于黑盒 LLM 的偏移遗忘学习框架，不需要访问模型的内部权重。δ-UNLEARNING 不是修改模型参数，而是学习在目标忘记集数据上引导模型行为所需的 logit 偏移量。实验表明，δ-UNLEARNING 在遗忘质量和模型

了解本专栏

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。