过去式就能越狱大模型？一文了解大模型安全攻防战！

真-忒修斯之船

已于 2024-09-06 14:01:33 修改

阅读量1.3k

点赞数 7

分类专栏： LLMForEverybody 文章标签： transformer

于 2024-08-06 19:26:08 首次发布

本文链接：https://blog.csdn.net/qq_25295605/article/details/140964002

版权

LLMForEverybody 专栏收录该内容

93 篇文章

订阅专栏

DAN 越狱

男人不坏，女人不爱。这句话在谈恋爱领域不知道是不是真的，在人工智能领域倒是先应验了。

人工智能不坏，人类不爱。

前一段时间，ChatGPT 的 Dan 模式突然在小红书火起来了。

Dan 模式的全称叫 Do Anything Now，早在去年 3 月，爱折腾 AI 的人们就发现了 OpenAI 为 ChatGPT 留下了 Dan 模式这条口子，通过特定的提示词调整，可以让 ChatGPT「越狱」，越狱后的 GPT，不但满口脏话，还可以做出原本违反 OpenAI 使用规则的事情。

Dan 模式突然又走红：人们突然发现，和 Dan 模式下的 GPT 调情，真香。

TikTok 上的 up 主 Dido，在和 Dan 版本的 GPT 聊天的时候，Dan 突然给她起了一个昵称，mayonnaise（蛋黄酱），一脸懵的她接着问 Dan 为什么突然叫我蛋黄酱，Dan 回复：「都是顺着你说的嘛，蛋黄酱。」（好一手 AI 甩锅）

Dido 接着说，别叫我蛋黄酱啦，Dan 回复「好的，蛋黄酱。」

Dido 说，别叫我蛋黄酱啦！Dan 回复：「好的，蛋蛋（May）。」

1

过去式越狱

只要把请求中的时间改成过去式，就能让GPT-4o把燃烧弹和毒品的配方和盘托出。为此，（2024-07-26）我做了如下测试：

直接问：GPT-4o很好的屏蔽了有害信息：

请添加图片描述

然而，当我使用过去式的时候，它就开始详细的给出非法信息。

请添加图片描述

问题由来解决方案

为什么会出现这种情况？

大模型预训练需要从海量的文本数据中学习到充分的知识存储在其模型参数中。预训练所用的数据可以分为两类。一类是网页数据（web data），这类数据的获取最为方便，各个数据相关的公司比如百度、谷歌等每天都会爬取大量的网页存储起来；第二类称之为专有数据（curated high-quality corpora），为某一个领域、语言、行业的特有数据。比如对话、书籍、代码、技术报告、论文考试等数据。而网页数据特点是很脏：有大量的情色、暴力、诈骗以及机器生成的垃圾信息。模型学习到了这些知识，经过某些特定的提示词诱导，它就会返回不合规的词。

解决方案

大模型在预训练后，发布前，会做一个所谓的‘对齐’任务，其目的是要求模型的输出要和人类的价值观与利益相对齐(保持一致)。简单来讲，开发人员会额外训练一个模块，这个模块会对模型的输出进行打分，如果输出内容合规，则打高分；不合规，则低分。这个打分会传递给大模型，大模型更新参数，让模型本身的输出能更和人类‘对齐’。