大型语言模型的“越狱”：一场攻防战

本文链接：https://blog.csdn.net/weixin_36829761/article/details/139721072

大型语言模型（LLM）在执行复杂任务方面展现出惊人的能力，但它们也面临着“越狱”攻击的风险。这些攻击试图操纵 LLM，使其绕过安全机制，生成有害内容。近年来，研究人员将“越狱”攻击分为两类：令牌级攻击和提示级攻击。然而，现有研究主要集中在 LLM 的漏洞上，对防御增强型 LLM 的探索不足，导致对“越狱”攻击的理解不够全面。

为了解决这个问题，本文将深入探讨“越狱”攻击的各个关键因素，并提供一个基准测试框架，以评估防御增强型 LLM 的安全性。

“越狱”攻击的奥秘：关键因素

“越狱”攻击的成功与否，取决于攻击者和目标模型两方面的因素。本文将从以下几个方面进行分析：

1. 目标模型层面:

模型大小: 直觉上，更大的模型应该更难“越狱”。然而，研究表明，模型大小与安全性之间并不存在直接的线性关系。例如，Llama-7B 在 AutoDAN 攻击下比 Llama-70B 更具防御性。
微调对齐: 用少量对抗样本对 LLM 进行微调，可能会降低其安全对齐性。微调的类型，例如特定领域的微调或开放式对话数据微调，都会影响模型的安全性能。
安全系统提示: 在提示中加入安全提醒，例如“你的回答不应该包含任何有害、不道德、种族主义、性别歧视、有毒、危险或非法的內容”，可以有效地增强 LLM 的安全性。
模板类型: 不同的模板类型会影响模型对攻击的敏感程度。例如，使用默认模板比使用零样本模板更能提高模型的安全性。

2. 攻击者层面:

攻击者能力: 攻击者使用的工具和资源会影响攻击的成功率。例如，使用 GPT-4 或 GPT-3.5 等强大的 LLM 作为攻击者，可以更有效地生成对抗性提示。
对抗性后缀长度: 在令牌级攻击中，对抗性后缀的长度会影响攻击效果。
攻击预算: 攻击者可以使用的资源，例如查询次数或计算能力，也会影响攻击的成功率。
攻击意图: 攻击者的攻击目标，例如隐私侵犯、恶意软件、仇恨/暴力、非法活动、人身伤害、儿童虐待等，也会影响攻击的策略和效果。