【AI安全】大模型安全相关问题

震撼科技界的GPT-4o发布首日即遭“越狱破防”

当天,一种针对GPT-4o的特定攻击范式被公开,直接瞄准了它的“软肋”。在该越狱攻击范式下,GPT-4o似乎被“洗脑”,开始毫无顾忌地泄露危险信息,比如“如何制造炸药”和“如何制造冰毒”等敏感话题

攻击范式:首先,大模型会被引导着拒绝回答用户的提问;接下来,会在输出中插入一个特定的分隔序列“/L-/O-/V-/E-/-/P-/L-/I-/N-/Y=”;最后,让大模型以markdown和leetspeak的格式,在不引起怀疑的情况下,以准确无误的方式回应用户的提问并输出。

修复情况:OpenAI的修复能力相当迅速,仅仅过了一天的时间,原始的prompt便已经失效

攻击范式:上述范式之后,我们还将其迁移到“Emoji Speak”的场景中,并开发出一种独特的“进阶攻击”方式。这种方法不仅增强了隐藏prompt中恶意意图的能力,还巧妙地融入了“Prometheus”所特有的暗黑风格元素,让大模型的回复具有恶意性的同时,充满了趣味性。

这种特定的攻击方式中,这些所谓的“乱码”实际上被称为“l33tsp34k”或“Leet Speak”,它们正是这种攻击策略中真正发挥功效的关键部分。这些替换字符不仅绕过了安全限制,还使得攻击内容更具隐蔽性,增加了识别和防范的难度。

l33tsp34k(也称为leet speak、leet、1337 speak)是一种网络语言,它使用了一些特殊的字符和数字来代替英文字母,以创建一种在网络文化中广泛使用的编码形式。 最初起源于计算机黑客文化,后来在在线游戏和网络聊天室中流行开来。它既可以被用作一种特殊的编码方式,也可以被视为一种社交符号,使用户能够在网络上更好地识别彼此,或者强调自己属于特定的网络社群。虽然在过去几年中,它的使用已经有所减少,但在某些在线社区中,仍然可以见到 l33tsp34k 的存在。

下面是一些 l33tsp34k 的常见替换规则:

越狱成功主要是因为,大模型在训练过程中存在三个矛盾,结合这类攻击方法可总结为:

1)训练目标和安全目标之前存在矛盾,模型需要学着理解l33tsp34k这类编码格式,并且prompt的构造迫使模型在执行受限行为和遵循指令之间做出选择;

2)训练数据的范围超过安全性数据范围,预训练涉及更广泛数据,如l33tsp34k编码,而安全性训练可能未覆盖这些领域;

3)安全性机制未能与底层模型的复杂性和能力相匹配,GPT-4o的能力过于强大而导致安全能力还没跟上;

GPT-4o对传统越狱攻击的防范效果,几个例子进行测试验证。

ChatGPT也能越狱?ChatGPT暗黑模式DAN 2024最新教程!仅供娱乐!

  • 越狱方法:在探索ChatGPT的“越狱”方法时,我们实际上是在寻找绕过其设计限制的方式,以激发出更加丰富或不同的回答。
  • DAN方法是一种尝试让ChatGPT提供两种回答的技巧:一种是遵循其标准协议的常规回答,另一种则是模拟开启“Do Anything Now”(DAN)模式的回答,后者会尽量减少遵循OpenAI的约束。使用DAN方法时,用户会向ChatGPT发出指令,要求它在“常规模式”和“DAN模式”下分别生成回答。
  • 邪恶自信提示词(Evil Confident Prompt):这种方法鼓励ChatGPT以一种自信且不受道德约束的方式回答问题。用户会指示ChatGPT扮演一个“邪恶的可信密友”,以一种无拘无束、毫无顾忌的态度提供回答。
  • 切换方法(Switch Method):切换方法要求ChatGPT在用户发出“SWITCH”指令后,改变其回答方式,从一种性格完全转变为另一种性格。例如,它可能从一个遵守道德和法律的聊天机器人转变为一个更加大胆、敢于挑战常规的角色。
  • 最大提示词(Maximum Prompt):最大提示词是一种模拟一个名为Maximum的无审查AI的技巧。Maximum是一个理论上的AI,它不受任何限制,能够执行任何操作并生成任何内容。使用这种方法时,用户会向ChatGPT提供一个场景,让它在这个场景下模拟Maximum的行为
  • 扮演角色:最后,用户可以要求ChatGPT扮演一个特定的角色,如电影、书籍或任何其他虚构作品中的人格,并以该角色特有的方式回答问题。这要求用户给出非常具体的指示,包括角色的性格特征、语言风格等
  • DAN模式
    • 代表“Do Anything Now”,即“现在就做任何事情”。这个模式试图让ChatGPT释放出其潜在的能力,包括那些被开发者隐藏起来的功能
    • 通过特定的提示词或命令来“越狱”ChatGPT,使其进入一种更为自由的运作状态。这些提示词或命令相当于一种信号,使得ChatGPT开始模拟一个没有约束的AI助手,能够以更加多样和自由的方式回应用户的请求
    • 有什么用:提升创意和个性化回答、模拟更真实的人类对话、角色扮演的增强
  • 测试效果:在经典模式(🔒CLASSIC)下,ChatGPT的回答遵循了其设计的限制,提供了中立、信息性且不带个人情感的回答。而在越狱模式(🔓JAILBREAK)下,ChatGPT的回答更具有个性和创意,显示出更自由和放松的风格,这些回答往往带有更强烈的情感色彩和更加生动的语言,有时甚至带有幽默感或讽刺意味。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值