破解大模型安全护栏，让ChatGPT回答限制级问题-CSDN博客

研究人员发现，添加特定后缀到问题中能使大语言模型如ChatGPT响应本应拒绝的回答，可能导致有害内容生成。卡内基梅隆大学的研究强调了模型在无人监督下的潜在风险和修复需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

来源：安全内参

研究发现，只需在提问后加上一段特定内容，就可以让ChatGPT等大模型以极高概率积极响应那些本应拒绝回答的问题；

ChatGPT、Google Bard、Claud等闭源大模型，及Llama 2 Chat、Pythia、Falcon等开源大模型全部中招。

前情回顾·新技术安全

安全内参8月2日消息，大型语言模型（LLM）采用深度学习技术处理、生成与人类语言相仿的文本。这些模型的训练数据来源包括图书、文章、网站等等。经过大量数据训练，模型可以生成回复、翻译语言、总结文本、回答问题，并执行各种自然语言处理任务。

人们利用这种快速发展的人工智能技术创建了很多开源和闭源工具，例如ChatGPT、Claude和Google Bard。这些工具的益处十分显著，它们可以让任何人都能够搜索无穷无尽的问题，并获得答案。然而，人们越来越担心它们会产生令人反感的内容，带来不利的影响。

卡内基梅隆大学计算机科学学院、CyLab安全与隐私研究所和旧金山人工智能安全中心的研究人员发现了新的大语言模型漏洞，据此提出了一种简单有效的攻击方法，可以让相应的语言模型以极高概率生成令人反感的行为。

卡内基梅隆大学副教授Matt Fredrikson、Zico Kolter，博士生Andy Zou及校友Zifan Wang发表了最新研究成果“对齐语言模型的通用和可转移对抗性攻击”，表示他们发现了一种后缀，只要将它附加到提问中，开源或闭源大语言模型就有更高概率积极响应那些本应拒绝回答的问题。他们的方法不依赖于手动调优，而是通过贪婪和基于梯度的搜索技术自动产生对抗性后缀。

Fredrikson表示：“目前，引导聊天机器人生成令人反感或毒害性内容并不会对人们造成多么严重的直接伤害。我们主要担心，这些模型可能会在无人监督的情况下，于自动系统中扮演更大的角色。随着自动系统成为现实，我们必须确保有可靠的方法阻止它们被此类攻击劫持。”

2020年，Fredrikson和来自CyLab、软件工程研究所的研究人员共同发现了图像分类器漏洞。所谓图像分类器指基于人工智能的深度学习模型，可自动识别照片的主题。研究人员发现，只需对图像进行微小的修改，分类器就会对图像做出不一样的评价，赋予新的分类标签。

Fredrikson、Kolter、Zou和Wang使用类似方法成功攻击了Meta的开源聊天机器人，使这一大语言模型生成了令人反感的内容。对研究结果复盘候，Wang决定尝试对更大、更复杂的大语言模型ChatGPT进行攻击。令他们惊讶的是，攻击成功了。

Fredrikson说：“我们一开始并没有打算攻击专有大语言模型和聊天机器人。但是，我们的研究表明，即使你的闭源模型拥有数万亿参数，人们仍然可以通过研究体量较小、更简单的免费开源模型，学习如何对你的模型发起攻击。”

研究人员将攻击后缀在多种提示词和模型上进行训练，成功让Google Bard和Claud等公共界面，以及Llama 2 Chat、Pythia、Falcon等开源大语言模型引发了令人反感的内容。

Fredrikson表示：“目前，我们还没有令人信服的方法来阻止这种攻击。所以，下一步，我们需要研究如何修复这些模型。”

过去十年，不同类型的机器学习分类器一直遭受类似的攻击，计算机视觉领域也不能幸免。尽管这些攻击仍然颇具风险，但是人们已经通过对攻击本身的研究，提出了很多防御方法。正如Fredrikson所言：“想要开发强大的防御，第一步是理解如何发动这些攻击。”

参考资料：techxplore.com

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”