本文是LLM系列文章,针对《A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures》的翻译。
大型语言模型的后门攻击和防御调查:对安全措施的影响
摘要
大型语言模型 (LLM) 弥合了人类语言理解和复杂问题解决之间的差距,在多项 NLP 任务上实现了最先进的性能,特别是在少样本和零样本设置中。尽管 LMM 的功效显而易见,但由于计算资源的限制,用户必须使用开源语言模型或将整个训练过程外包给第三方平台。然而,研究表明,语言模型容易受到潜在安全漏洞的影响,特别是在后门攻击中。后门攻击旨在通过毒害训练样本或模型权重,将目标漏洞引入到语言模型中,从而使攻击者能够通过恶意触发器操纵模型响应。虽然现有的后门攻击调查提供了全面的概述,但缺乏对专门针对LLM的后门攻击的深入研究。为了弥补这一差距并掌握该领域的最新趋势,本文通过重点关注微调方法,提出了一种关于 LLM 后门攻击的新颖视角。具体来说,我们系统地将后门攻击分为三类:全参数微调、参数高效微调和无微调攻击。基于大量评论的见解,我们还讨论了未来后门攻击研究的关键问题,例如进一步探索不需要微调的攻击算法,或开发更隐蔽的攻击算法。