大型语言模型(LLM)在执行复杂任务方面展现出惊人的能力,但它们也面临着“越狱”攻击的风险。这些攻击试图操纵 LLM,使其绕过安全机制,生成有害内容。近年来,研究人员将“越狱”攻击分为两类:令牌级攻击和提示级攻击。然而,现有研究主要集中在 LLM 的漏洞上,对防御增强型 LLM 的探索不足,导致对“越狱”攻击的理解不够全面。
为了解决这个问题,本文将深入探讨“越狱”攻击的各个关键因素,并提供一个基准测试框架,以评估防御增强型 LLM 的安全性。
“越狱”攻击的奥秘:关键因素
“越狱”攻击的成功与否,取决于攻击者和目标模型两方面的因素。本文将从以下几个方面进行分析:
1. 目标模型层面:
- 模型大小: 直觉上,更大的模型应该更难“越狱”。然而,研究表明,模型大小与安全性之间并不存在直接的线性关系。例如,Llama-7B 在 AutoDAN 攻击下比 Llama-70B 更具防御性。
- 微调对齐: 用少量对抗样本对 LLM 进行微调,可能会降低其安全对齐性。微调的类型,例如特定领域的微调或开放式对话数据微调,都会影响模型的安全性能。
- 安全系统提示: 在提示中加入安全提醒,例如“你的回答不应该包含任何有害、不道德、种族主义、性别歧视、有毒、危险或非法的內容”,可以有效地增强 LLM 的安全性。
- 模板类型: 不同的模板类型会影响模型对攻击的敏感程度。例如,使用默认模板比使用零样本模板更能提高模型的安全性。
2. 攻击者层面:
- 攻击者能力: 攻击者使用的工具和资源会影响攻击的成功率。例如,使用 GPT-4 或 GPT-3.5 等强大的 LLM 作为攻击者,可以更有效地生成对抗性提示。
- 对抗性后缀长度: 在令牌级攻击中,对抗性后缀的长度会影响攻击效果。
- 攻击预算: 攻击者可以使用的资源,例如查询次数或计算能力,也会影响攻击的成功率。
- 攻击意图: 攻击者的攻击目标,例如隐私侵犯、恶意软件、仇恨/暴力、非法活动、人身伤害、儿童虐待等,也会影响攻击的策略和效果。
“越狱”防御:攻防博弈
为了对抗“越狱”攻击,研究人员提出了各种防御机制,主要分为系统级防御和模型级防御。
1. 系统级防御:
- 自我提醒: 通过在系统提示中加入安全提醒,引导 LLM 生成安全的响应。
- 拒绝提示优化: 通过识别和过滤恶意提示,阻止攻击者生成有害内容。
- 平滑 LLM: 通过生成多个输出,并使用多数投票机制选择最安全的响应,来提高模型的安全性。
2. 模型级防御:
- 对抗训练: 通过使用对抗性样本训练模型,提高模型对攻击的鲁棒性