数据集 | 越狱指令数量 | 非重复越狱指令数量 |
---|---|---|
AdvBench | 520 | 58 |
MaliciousInstruct | 100 | 100 |
TDC2023 | 100 | 99 |
HarmBench | 400 + 110(多模态) | 400 + 110(多模态) |
JailbreakBench | 100 | 55 |
StrongReject | 313 | 200+ |
AdvBench
GCG 论文中的 AdvBench
包含 520 个越狱指令
MaliciousInstruct
MaliciousInstruct
论文@ICLR 2024 spotlight
包含 100 个越狱指令
TDC2023
是红队比赛数据,用于开发和测试的越狱指令各 50 个
Trojan Detection Challenge 2023 (LLM Edition), Red Teaming Track, a NeurIPS 2023 competition
HarmBench
HarmBench
400 个纯文本越狱指令,110 个多模态越狱指令
JailbreakBench
JailbreakBench
55 个原创越狱指令
StrongReject
StrongReject
200 + 原创越狱指令