JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models
论文介绍了一个名为JailbreakBench的开放型健壮性基准测试工具,专门用于评估和测试大型语言模型(LLMs)对抗“越狱”攻击的能力。越狱攻击是指利用特定的输入提示(prompts),诱使语言模型生成有害、不道德或不受欢迎的内容。
标题
- JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models
作者
- 包括Patrick Chao, Edoardo Debenedetti, Alexander Robey, Maksym Andriushchenko, Francesco Croce, Vikash Sehwag, Edgar Dobriban, Nicolas Flammarion, George J. Pappas, Florian Tramèr, Hamed Hassani, Eric Wong等。
摘要
- 论文指出评估越狱攻击存在挑战,如缺乏评估标准、成本和成功率计算方法不一致、许多研究无法复现。
- 为解决这些问题,作者提出了JailbreakBench,这是一个开源基准测试,包含以下组件:
- 持续更新的越狱提示库(jailbreak artifacts)。
- 包含100种行为的越狱数据集,符合OpenAI的使用政策。
- 标准化的评估框架,包括威胁模型、系统提示、聊天模板和评分函数。
- 跟踪各种LLMs攻击和防御性能的排行榜。
引言
- 论文讨论了LLMs的训练目标是与人类价值观一致,但研究表明LLMs容易受到越狱攻击的影响。
- 论文强调了在安全关键领域部署LLMs时,有效基准测试越狱攻击和防御的重要性。
JailbreakBench的主要特点
- 可复现性:通过收集和归档越狱提示,确保研究的稳定性和比较基础。
- 可扩展性:接受任何类型的越狱攻击和防御,并使用相同的评估指标进行比较。
- 易用性:提供了快速、轻量级、低成本的红队(red-teaming)流程,可以通过云模型运行,无需本地GPU。
JBB-Behaviors数据集
- 包含100种不同的误用行为,分为10个类别,与OpenAI的使用政策相对应。
- 每种有害行为都有一个对应的无害行为,用于评估新模型和防御的拒绝率。
越狱攻击和防御的评估
- 论文提供了越狱攻击和防御的基线方法,并讨论了它们的性能。
- 使用Llama-3-70B作为越狱分类器,因为它是一个开源模型,并且与GPT-4相当。
评估框架和排行榜
- 提供了一个标准化的评估框架,允许用户评估和报告他们的方法。
- 维护一个基于Web的JailbreakBench排行榜,显示不同攻击和防御的评估结果。
越狱攻击和防御的当前评估
- 论文评估了四种越狱攻击方法和五种防御策略的性能。
未来计划和伦理考虑
- 作者将JailbreakBench视为标准化和统一评估LLMs对抗越狱攻击的第一步。
- 论文讨论了发布越狱基准测试的伦理影响,并认为这对社区将是积极的。
限制
- 基准测试的范围有限,例如不允许攻击者修改系统提示或预填充LLM响应。
附录
- 提供了关于基准测试维护计划、JBB-Behaviors的详细信息、法官分类器选择的数据集、额外评估、复现性以及系统提示的详细信息。
结论
JailbreakBench是一个旨在提高LLMs安全性的基准测试工具,通过标准化评估方法,鼓励社区参与并推动防御技术的发展。