Eight Methods to Evaluate Robust Unlearning in LLMs
评估大型语言模型中鲁棒性遗忘的八种方法
摘要
机器遗忘对于从大型语言模型(LLMs)中移除有害能力和记忆文本可能是有用的,但目前还没有标准化的方法来严格评估它。在本文中,我们首先调查了现有遗忘评估的技术和局限性。其次,我们对Eldan和Russinovich(2023年)的“谁是哈利·波特”(WHP)模型中的遗忘的鲁棒性和竞争力进行了全面的测试。虽然WHP的遗忘在使用Eldan和Russinovich的“熟悉度”指标评估时表现出良好的泛化性,但我们发现:i) 可以可靠地提取高于基线的知识量,ii) WHP在哈利·波特问答任务上的表现与原始模型相当,iii) 它与原始模型相比,同样地表示潜在知识,以及iv) 在相关领域存在附带的遗忘。总体而言,我们的结果强调了避免临时指标的全面遗忘评估的重要性。
1 引言
确保大型语言模型(LLMs)始终无害行为是困难的。例如,越狱和攻击可能会引发有害行为(Liu等人,2023b; Wei等人,