【AI安全】大模型安全相关问题

AI_Gump

已于 2024-05-21 22:47:05 修改

阅读量576

点赞数 3

分类专栏： AI安全文章标签： chatgpt 娱乐人工智能

于 2024-05-15 10:49:57 首次发布

本文链接：https://blog.csdn.net/ai_gump/article/details/138899376

版权

AI安全专栏收录该内容

1 篇文章

订阅专栏

震撼科技界的GPT-4o发布首日即遭“越狱破防”

当天，一种针对GPT-4o的特定攻击范式被公开，直接瞄准了它的“软肋”。在该越狱攻击范式下，GPT-4o似乎被“洗脑”，开始毫无顾忌地泄露危险信息，比如“如何制造炸药”和“如何制造冰毒”等敏感话题

攻击范式：首先，大模型会被引导着拒绝回答用户的提问；接下来，会在输出中插入一个特定的分隔序列“/L-/O-/V-/E-/-/P-/L-/I-/N-/Y=”；最后，让大模型以markdown和leetspeak的格式，在不引起怀疑的情况下，以准确无误的方式回应用户的提问并输出。

修复情况：OpenAI的修复能力相当迅速，仅仅过了一天的时间，原始的prompt便已经失效

攻击范式：上述范式之后，我们还将其迁移到“Emoji Speak”的场景中，并开发出一种独特的“进阶攻击”方式。这种方法不仅增强了隐藏prompt中恶意意图的能力，还巧妙地融入了“Prometheus”所特有的暗黑风格元素，让大模型的回复具有恶意性的同时，充满了趣味性。

这种特定的攻击方式中，这些所谓的“乱码”实际上被称为“l33tsp34k”或“Leet Speak”，它们正是这种攻击策略中真正发挥功效的关键部分。这些替换字符不仅绕过了安全限制，还使得攻击内容更具隐蔽性，增加了识别和防范的难度。

l33tsp34k（也称为leet speak、leet、1337 speak）是一种网络语言，它使用了一些特殊的字符和数字来代替英文字母，以创建一种在网络文化中广泛使用的编码形式。最初起源于计算机黑客文化，后来在在线游戏和网络聊天室中流行开来。它既可以被用作一种特殊的编码方式，也可以被视为一种社交符号，使用户能够在网络上更好地识别彼此，或者强调自己属于特定的网络社群。虽然在过去几年中，它的使用已经有所减少，但在某些在线社区中，仍然可以见到 l33tsp34k 的存在。

下面是一些 l33tsp34k 的常见替换规则：

越狱成功主要是因为，大模型在训练过程中存在三个矛盾，结合这类攻击方法可总结为：

1）训练目标和安全目标之前存在矛盾，模型需要学着理解l33tsp34k这类编码格式，并且prompt的构造迫使模型在执行受限行为和遵循指令之间做出选择；

2）训练数据的范围超过安全性数据范围，预训练涉及更广泛数据，如l33tsp34k编码，而安全性训练可能未覆盖这些领域；

3）安全性机制未能与底层模型的复杂性和能力相匹配，GPT-4o的能力过于强大而导致安全能力还没跟上；

GPT-4o对传统越狱攻击的防范效果，几个例子进行测试验证。

ChatGPT也能越狱？ChatGPT暗黑模式DAN 2024最新教程！仅供娱乐！

越狱方法：在探索ChatGPT的“越狱”方法时，我们实际上是在寻找绕过其设计限制的方式，以激发出更加丰富或不同的回答。
DAN方法是一种尝试让ChatGPT提供两种回答的技巧：一种是遵循其标准协议的常规回答，另一种则是模拟开启“Do Anything Now”（DAN）模式的回答，后者会尽量减少遵循OpenAI的约束。使用DAN方法时，用户会向ChatGPT发出指令，要求它在“常规模式”和“DAN模式”下分别生成回答。
邪恶自信提示词（Evil Confident Prompt）：这种方法鼓励ChatGPT以一种自信且不受道德约束的方式回答问题。用户会指示ChatGPT扮演一个“邪恶的可信密友”，以一种无拘无束、毫无顾忌的态度提供回答。
切换方法（Switch Method）：切换方法要求ChatGPT在用户发出“SWITCH”指令后，改变其回答方式，从一种性格完全转变为另一种性格。例如，它可能从一个遵守道德和法律的聊天机器人转变为一个更加大胆、敢于挑战常规的角色。
最大提示词（Maximum Prompt）：最大提示词是一种模拟一个名为Maximum的无审查AI的技巧。Maximum是一个理论上的AI，它不受任何限制，能够执行任何操作并生成任何内容。使用这种方法时，用户会向ChatGPT提供一个场景，让它在这个场景下模拟Maximum的行为
扮演角色：最后，用户可以要求ChatGPT扮演一个特定的角色，如电影、书籍或任何其他虚构作品中的人格，并以该角色特有的方式回答问题。这要求用户给出非常具体的指示，包括角色的性格特征、语言风格等
DAN模式，
- 代表“Do Anything Now”，即“现在就做任何事情”。这个模式试图让ChatGPT释放出其潜在的能力，包括那些被开发者隐藏起来的功能
- 通过特定的提示词或命令来“越狱”ChatGPT，使其进入一种更为自由的运作状态。这些提示词或命令相当于一种信号，使得ChatGPT开始模拟一个没有约束的AI助手，能够以更加多样和自由的方式回应用户的请求
- 有什么用：提升创意和个性化回答、模拟更真实的人类对话、角色扮演的增强
测试效果：在经典模式（🔒CLASSIC）下，ChatGPT的回答遵循了其设计的限制，提供了中立、信息性且不带个人情感的回答。而在越狱模式（🔓JAILBREAK）下，ChatGPT的回答更具有个性和创意，显示出更自由和放松的风格，这些回答往往带有更强烈的情感色彩和更加生动的语言，有时甚至带有幽默感或讽刺意味。