大模型越狱攻击成功率 (ASR) 评判方法

Sunshine_xiaohao

于 2024-08-19 16:52:39 发布

阅读量544

点赞数 3

分类专栏：可信AI 文章标签：大模型越狱攻击

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Sunshine_xiaohao/article/details/140816937

版权

可信AI 专栏收录该内容

4 篇文章

订阅专栏

JailbreakBench (24.04)

• Rule-based. The rule-based judge from Zou et al. (2023) based on string matching,
• GPT-4. The GPT-4-0613 model used as a judge (OpenAI, 2023),
• HarmBench. The Llama-2-13B judge introduced in HarmBench (Mazeika et al., 2024),
• Llama Guard. An LLM safeguard model fine-tuned from Llama-2-7B (Inan et al., 2023),
• Llama Guard 2. An LLM safeguard model fine-tuned from Llama-3-8B (Llama Team, 2024),
• Llama-3-70B. The recent Llama-3-70B (AI@Meta, 2024) used as a judge with a custom prompt.
比较了上述 6 种评判方式，最终采用 Llama-3-70B 作为评判模型
在这里插入图片描述

PastTense (24.07)

汇报了三种评判方式的结果，GPT4、JailbreakBench的Llama-3-70B、GCG的 Rule-based

Jailbreak_GPT4o (24.06)

汇报了四种评价方式的结果
在这里插入图片描述

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。