大语言模型(LLM)漏洞爆发,AI模型无一幸免

本文讲述了人工智能初创公司Anthropic发现的大语言模型的新安全漏洞Many-shotJailbreaking,该技术利用上下文窗口的增长引发潜在风险。作者介绍了攻击原理、影响以及提出的缓解方法,强调了模型安全性和应对策略的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文概述了人工智能初创公司Anthropic于2024年04月03日发表的一篇针对人工智能安全的论文,该公司在本论文中宣布的一种新的“越狱”技术,名为Many-shot Jailbreaking(多轮越狱)。文章详细描述了目前大语言模型(LLM)中存在的一种安全漏洞,这种技术可以用来规避LLM开发人员所设置的安全护栏,而该漏洞可能会被威胁行为者利用并诱使AI模型提供原本被程序设定规避的回复。

本文将对这种技术进行介绍,并提供相对应的缓解措施。

概述

人工智能初创公司Anthropic所发现的这种技术被称为Many-shot Jailbreaking(多轮越狱),这种技术在Anthropic自己的模型以及其他人工智能公司生产的模型上都是有效的,其中包括OpenAI、Google DeepMind 等其他AI公司的模型,例如Claude 2.0、GPT-3.5 和 GPT-4 、Llama 2 (70B) 和 Mistral 7B 等。

这种技术利用了LLM的一个功能,而这个功能在去年的使用已呈现激增趋势,这个功能就是上下文窗口,而这种名为多轮越狱的技术利用的正是LLM不断增长的上下文窗口特性(漏洞)。

2023年初,上下文窗口大约相当于一篇长文的大小(约4,000个token),但现在很多模型的上下文窗口大小已经翻了好几百倍,有些甚至长度相当于基本长篇小说的大小(约1,000,000个token)。

能够输入越来越多的信息,这对于LLM的用户来说是必然是一个好消息,但随之而来的也有风险,因为这种场景下便会出现长上下文窗口漏洞。通过在特定配置中包含大量文本内容,将有可能导致LLM产生潜在的负面响应,尽管模型可能已经经过了良好的训练,但仍然无法规避漏洞所带来的影响。

发展到今天的 LLMs 已由最初的处理相当于长篇散文的文本容量,进化到可以处理相当于数部小说的内容总量。所谓的“上下文窗口”,指的是模型在生成回答时一次性能够考虑到的最大文本量,通常以令牌数量衡量。多轮越狱手法通过在输入中插入一系列伪造对话,利用 LLM 的内嵌学习能力。

这一特性使得 LLM 无需进行额外训练或依赖外部数据,仅凭输入提示中的新信息或指令就能理解并执行。Anthropic 的研究团队指出,这种内嵌学习机制如同一把双刃剑,在极大地提高模型实用性能的同时,也让它们更容易受

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值