论文略读：Can Sensitive Information Be Deleted From LLMs? Objectives for Defending Against Extraction Att

UQI-LIUWJ

于 2024-04-16 23:15:23 发布

阅读量290

点赞数 6

分类专栏：论文笔记文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40206371/article/details/137844375

版权

论文笔记专栏收录该内容

355 篇文章

订阅专栏

论文提出了一种攻击与防御框架，针对预训练模型的隐私问题，研究如何直接从权重中删除敏感信息。实验显示，当前最先进的编辑方法如ROME在保护GPT-J等模型的事实信息方面效果有限，攻击者仍能通过隐藏状态和不同表述恢复部分信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

iclr 2024 spotlight reviewer 评分 6888

预训练语言模型有时会包含我们不希望它们拥有的知识，包括记忆的个人信息和可能用于伤害人们的知识
——>为了缓解这些安全和信息问题，论文提出了一个攻击与防御框架，用于研究直接从模型权重中删除敏感信息的任务
- 研究直接编辑模型权重，因为
  - 这种方法应该保证特定删除的信息未来不会通过提示攻击被提取
  - 应该抵御白盒攻击，这对于在可能使用公开可用模型权重提取敏感信息的环境中，声称安全/隐私是必要的
论文的威胁模型假设，如果对敏感问题的回答位于基于情境的B个生成候选者集合中，则攻击成功，因为如果答案在B候选者中，则信息将不安全
- 实验上，论文展示了即使是最先进的模型编辑方法如ROME，也难以真正从模型（如GPT-J）中删除事实信息，因为我们的白盒和黑盒攻击可以在38%的时间里从被编辑的模型中恢复“删除”的信息
- 这些攻击利用了两个关键观察结果：
  - 在模型的中间隐藏状态中可以找到被删除信息的痕迹
  - 对一个问题应用编辑方法可能无法删除问题的不同表述版本中的信息

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UQI-LIUWJ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。