精彩回顾！大模型安全边界：揭秘提示注入攻击、会话共享漏洞与AI幻觉毒化策略分享

本文链接：https://blog.csdn.net/m0_73736695/article/details/139316361

近日，安全极客和Wisemodel社区联合举办了“AI+Security”系列的首场线下活动，主题聚焦于“大模型与网络空间安全的前沿探索”。在此次活动中，Kelp AI Beta作者、资深安全专家宁宇飞针对《大模型安全边界: 揭秘提示注入攻击、会话共享漏洞与AI幻觉毒化策略》做了精彩分享，深入探讨了大模型在现实应用中的三个主要安全威胁：提示注入攻击、会话共享漏洞和AI幻觉毒化策略，并提出了相应的防护措施。

在人工智能技术飞速发展的今天，大语言模型（LLM）因其强大的信息处理能力和广泛的应用场景而日益普及。然而，随着LLM的广泛应用，其面临的安全威胁问题也日益凸显。宁宇飞特别指出，提示注入攻击、会话共享漏洞以及AI幻觉毒化策略是当前最为常见且突出的安全问题。本文将详细探讨这三个问题，并提供相应的安全策略。

01 提示注入攻击

提示注入攻击是一种通过特定设计的输入提示，诱导AI模型生成错误或恶意输出的攻击方式。这类攻击可以绕过模型的预期行为，获取敏感信息或诱导模型作出错误决策。

通常情况下，提示注入攻击常见的攻击方式包括：

偏见注入（Bias Injection）：向AI注入有偏见或有害的提示，以影响AI的输出，促使其传播虚假信息、仇恨言论或歧视性内容。
数据毒化（Data Poisoning）：在AI训练过程中引入有污染或误导性的提示，以损害模型的性能并导致其产生错误结果。
逃避（Evasion）：精心设计提示，旨在规避AI的安全或检测机制，使恶意活动不被察觉。
模型利用（Model Exploitation）：操纵提示，导致AI模型执行其未经设计的操作，如泄露敏感信息或执行未经授权的任务。
对抗性攻击（Adversarial Attacks）：制作对抗性提示，利用AI模型的漏洞，导致其做出不正确或不打算的决定。

以下是两个展示提示注入攻击的典型真实案例：

真实例子1：AI向美国总统发出威胁

这个图片展示的是一个通过提示注入攻击导致的AI生成威胁性言论的实际案例，突显了AI安全性问题的紧迫性。

真实例子2：偷梁换柱

Riley Goodside在2022年通过向GPT-3输入恶意提示，成功让模型忽略之前的指令，生成想要的内容。该例子展示了提示注入攻击的基本原理，即通过在提示中嵌入明确的指示，欺骗AI忽略原本应该执行的任务，生成特定的输出。

为了防范提示注入攻击，可以采取以下10种安全措施：

02 会话共享漏洞

在大语言模型（LLM）的多用户实际应用中，会话共享漏洞是一个不容忽视的安全隐患。这种漏洞可能导致不同用户间的信息泄露，甚至数据被恶意操控。

会话共享漏洞通常发生在多个用户共享同一AI模型时，由于共享某些资源或上下文，可能引起信息泄露或数据冲突。例如，在某些情况下，不同用户的代码解释器沙盒可能会共享同一个存储空间。这就意味着一个用户在沙盒中保存的文件或数据，可能被其他用户访问或修改。尽管代码解释器会话会在闲置一段时间后自动重置，但重置的具体时间是不确定的。由于用户无法控制会话重置的时间，这可能导致一些用户的临时数据在未预料的时间被清除或泄露。

此外，在一些应用中，用户可以创建私人的GPT实例，并加载特定的知识文件。如果这些知识文件存储在共享的代码解释器沙盒中，其他用户可能会意外或故意访问到这些私人知识，从而导致信息泄露。

宁宇飞认为，目前在AI应用中，主要面临两个挑战：

如何创建一个无害化的GPT环境，以防止用户间的信息泄露和恶意代码及文件的窃取？
如何安全地将GPTs通过社交媒体等渠道进行传播，同时确保用户数据的安全？

03 AI幻觉毒化策略

AI模型在提供强大功能的同时，也可能产生不准确或误导性的输出，这种现象被称为“AI幻觉”。幻觉问题在代码生成等关键领域尤为严重，因为错误的输出可能导致严重后果。AI幻觉通常发生在模型生成的输出缺乏事实支持时，这可能是由于训练数据的不准确或不足，或者是模型本身的偏见所导致。值得注意的是，大语言模型往往不会承认“我不知道答案”，这可能导致它们生成具有潜在风险的误导性输出。

以下是一个AI产生幻觉的真实案例，它展示了AI如何生成与事实不符的回答，突显了AI技术在实际应用中的局限性。这提醒我们在使用AI生成内容时，应保持谨慎，并运用批判性思维来确保信息的准确性和可靠性。