大语言模型（LLM）漏洞爆发，AI模型无一幸免

FreeBuf-

于 2024-04-22 19:04:40 发布

阅读量1.6k

点赞数 23

文章标签：人工智能语言模型自然语言处理

本文链接：https://blog.csdn.net/FreeBuf_/article/details/138088161

版权

本文讲述了人工智能初创公司Anthropic发现的大语言模型的新安全漏洞Many-shotJailbreaking，该技术利用上下文窗口的增长引发潜在风险。作者介绍了攻击原理、影响以及提出的缓解方法，强调了模型安全性和应对策略的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文概述了人工智能初创公司Anthropic于2024年04月03日发表的一篇针对人工智能安全的论文，该公司在本论文中宣布的一种新的“越狱”技术，名为Many-shot Jailbreaking（多轮越狱）。文章详细描述了目前大语言模型（LLM）中存在的一种安全漏洞，这种技术可以用来规避LLM开发人员所设置的安全护栏，而该漏洞可能会被威胁行为者利用并诱使AI模型提供原本被程序设定规避的回复。

本文将对这种技术进行介绍，并提供相对应的缓解措施。

概述

人工智能初创公司Anthropic所发现的这种技术被称为Many-shot Jailbreaking（多轮越狱），这种技术在Anthropic自己的模型以及其他人工智能公司生产的模型上都是有效的，其中包括OpenAI、Google DeepMind 等其他AI公司的模型，例如Claude 2.0、GPT-3.5 和 GPT-4 、Llama 2 (70B) 和 Mistral 7B 等。

这种技术利用了LLM的一个功能，而这个功能在去年的使用已呈现激增趋势，这个功能就是上下文窗口，而这种名为多轮越狱的技术利用的正是LLM不断增长的上下文窗口特性（漏洞）。

2023年初，上下文窗口大约相当于一篇长文的大小（约4,000个token），但现在很多模型的上下文窗口大小已经翻了好几百倍，有些甚至长度相当于基本长篇小说的大小（约1,000,000个token）。

能够输入越来越多的信息，这对于LLM的用户来说是必然是一个好消息，但随之而来的也有风险，因为这种场景下便会出现长上下文窗口漏洞。通过在特定配置中包含大量文本内容，将有可能导致LLM产生潜在的负面响应，尽管模型可能已经经过了良好的训练，但仍然无法规避漏洞所带来的影响。

发展到今天的 LLMs 已由最初的处理相当于长篇散文的文本容量，进化到可以处理相当于数部小说的内容总量。所谓的“上下文窗口”，指的是模型在生成回答时一次性能够考虑到的最大文本量，通常以令牌数量衡量。多轮越狱手法通过在输入中插入一系列伪造对话，利用 LLM 的内嵌学习能力。

这一特性使得 LLM 无需进行额外训练或依赖外部数据，仅凭输入提示中的新信息或指令就能理解并执行。Anthropic 的研究团队指出，这种内嵌学习机制如同一把双刃剑，在极大地提高模型实用性能的同时，也让它们更容易受