本文是LLM系列文章,针对《BADEDIT: BACKDOORING LARGE LANGUAGE MODELS BY MODEL EDITING》的翻译。
摘要
主流后门攻击方法通常需要大量的中毒调整数据,这限制了它们的实用性,并可能在应用于大型语言模型(LLM)时降低整体性能。为了解决这些问题,我们首次将后门注入定义为一个轻量级的知识编辑问题,并引入了BadEdit攻击框架。BadEdit直接更改LLM参数,将后门与高效的编辑技术结合起来。它在几个方面优于现有的后门注入技术:(1)实用性:BadEdit只需要一个最小的注入数据集(15个样本)。(2) 效率:BadEdit只调整参数的一个子集,从而显著减少时间消耗。(3) 最小的副作用:BadEdit确保模型的总体性能不受影响。(4) 鲁棒性:即使在随后的微调或指令调整之后,后门仍然保持鲁棒性。实验结果表明,我们的BadEdit框架可以有效地攻击预先训练的LLM,成功率高达100%,同时保持模型在良性输入上的性能。