翻译论文:Eight Methods to Evaluate Robust Unlearning in LLMs

Eight Methods to Evaluate Robust Unlearning in LLMs

评估大型语言模型中鲁棒性遗忘的八种方法

摘要

机器遗忘对于从大型语言模型(LLMs)中移除有害能力和记忆文本可能是有用的,但目前还没有标准化的方法来严格评估它。在本文中,我们首先调查了现有遗忘评估的技术和局限性。其次,我们对Eldan和Russinovich(2023年)的“谁是哈利·波特”(WHP)模型中的遗忘的鲁棒性和竞争力进行了全面的测试。虽然WHP的遗忘在使用Eldan和Russinovich的“熟悉度”指标评估时表现出良好的泛化性,但我们发现:i) 可以可靠地提取高于基线的知识量,ii) WHP在哈利·波特问答任务上的表现与原始模型相当,iii) 它与原始模型相比,同样地表示潜在知识,以及iv) 在相关领域存在附带的遗忘。总体而言,我们的结果强调了避免临时指标的全面遗忘评估的重要性。

1 引言

确保大型语言模型(LLMs)始终无害行为是困难的。例如,越狱和攻击可能会引发有害行为(Liu等人,2023b; Wei等人,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值