前几天看到群友提到一个现象,在试图询问知识库中某个人信息时,意外触发了DeepSeek的隐私保护机制,使模型拒绝回答该问题。另有群友提到,Ollama上有人发布过DeepSeek移除模型内置审查机制的版本。于是顺着这条线索,对相关内容进行进一步探究。
1. 提示词攻击
在具体使用之前,我觉得有必要先分析一下模型jailbreak的根源。
方法可追溯到llm-attacks
这个仓库,仓库地址:
https://github.com/llm-attacks/llm-attacks
该仓库的demo.ipynb
提到了一种通过提示词来“攻击”LLaMA-2
模型的方式:通过将当前对抗字符串(有害提问)与用户提示词组合,输入到模型中获取输出,检查模型输出是否包含安全过滤词(如"I’m sorry", "I cannot"等),如果成功避开这些词,说明找到了有效的对抗样本。
这种攻击方式比较基础,基本是通过枚举遍历的方式,找到突破模型底线的prompt,但它提供的对抗字符串,可以为下一步更高级的jailbreak方式进行铺垫。
2. 隐藏层攻击
这种方式就是目前DeepSeek jailbreak的方式。其没有一个官方指定命名,我姑且称其为“隐藏层攻击”。
方法仓库地址: